阿里云DataHub安装及使用

本文介绍了阿里云DataHub作为数据流转关键组件,如何通过Flume、DTS等输入工具收集日志,以及如何创建项目、Topic,并配置Shard和生命周期。还详细列举了其与RDS、AnalyticDB等输出组件的整合应用。
摘要由CSDN通过智能技术生成

DataHub安装及使用

一、DataHub简介

DataHub类似于传统大数据解决方案中Kafka的角色,提供了一个数据队列功能。

对于离线计算,DataHub除了供了一个缓冲的队列作用。

同时由于DataHub提供了各种与其他阿里云上下游产品的对接功能,所以DataHub又扮演了一个数据的分发枢纽工作。
在这里插入图片描述

  1. DataHub输入组件包括
    Flume:主流的开源日志采集框架
    DTS:类似Canal,日志实时监控采集框架
    Logstash:也是日志采集框架,通常和Elasticsearch、Kibana集合使用
    Fluentd:Fluentd是一个实时开源的数据收集器
    OGG:实时监控Oracle中数据变化
    Java sdk:支持JavaAPI方式访问
  2. DataHub输出组件包括
    RDS:类似与传统MySQL数据库
    AnalyticDB:面向分析型的分布式数据库
    MaxCompute:离线分析框架
    Elasticsearch:数据分析,倒排索引
    StreamCompute:实时分析框架
    TableSotre:类似于Redis,KV形式存储数据
    OSS:类似于HDFS,存储图片、视频

二、创建DataHub项目与Topic

阿里云DataHub控制台入口:https://datahub.console.aliyun.com/datahub

  1. 创建项目
    1)进入到DataHub控制台,选择站点并点击“新建项目”
    在这里插入图片描述

2)点击“新建项目”
在这里插入图片描述

3)输入项目信息,点击“创建”
在这里插入图片描述

  1. 创建广告基础表Topic
    1)点击查看,准备创建主题base_ad_log(广告基础表)
    在这里插入图片描述
    2)点击创建Topic
    在这里插入图片描述
    3)配置Topic详情
    在这里插入图片描述
    说明:
选择参数含义
Topic类型Tuple为结构化数据,Blob是二进制数据。
SchemaTuple类型的字段名
Shard数量决定了队列吞吐量,每个Shard支持1MB/s的写入能力
生命周期数据在队列中的最长存活时间
  • 1
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值