DataHub安装及使用
一、DataHub简介
DataHub类似于传统大数据解决方案中Kafka的角色,提供了一个数据队列功能。
对于离线计算
,DataHub除了供了一个缓冲的队列
作用。
同时由于DataHub提供了各种与其他阿里云上下游产品的对接功能,所以DataHub
又扮演了一个数据的分发枢纽
工作。
- DataHub输入组件包括
Flume:主流的开源日志采集框架
DTS:类似Canal,日志实时监控采集框架
Logstash:也是日志采集框架,通常和Elasticsearch、Kibana集合使用
Fluentd:Fluentd是一个实时开源的数据收集器
OGG:实时监控Oracle中数据变化
Java sdk:支持JavaAPI方式访问 - DataHub输出组件包括
RDS:类似与传统MySQL数据库
AnalyticDB:面向分析型的分布式数据库
MaxCompute:离线分析框架
Elasticsearch:数据分析,倒排索引
StreamCompute:实时分析框架
TableSotre:类似于Redis,KV形式存储数据
OSS:类似于HDFS,存储图片、视频
二、创建DataHub项目与Topic
阿里云DataHub控制台入口:https://datahub.console.aliyun.com/datahub
- 创建项目
1)进入到DataHub控制台,选择站点并点击“新建项目”
2)点击“新建项目”
3)输入项目信息,点击“创建”
- 创建广告基础表Topic
1)点击查看,准备创建主题base_ad_log(广告基础表)
2)点击创建Topic
3)配置Topic详情
说明:
选择参数 | 含义 |
---|---|
Topic类型 | Tuple为结构化数据,Blob是二进制数据。 |
Schema | Tuple类型的字段名 |
Shard数量 | 决定了队列吞吐量,每个Shard支持1MB/s的写入能力 |
生命周期 | 数据在队列中的最长存活时间 |