快速入门教程
1.开通DataHub
? 使用DataHub的第一步,首先点击开通DataHub
2.创建Project和 Topic
创建Topic方式解读,Tuple还是Blob?
Tuple支持的是强Schema的结构化数据,Blob指的是没有类型的非结构化数据,在实际中Blob就是只有一列为string类型的schema
值得注意的是:使用Blob类型topic的话,数据会采用Base64加密,无论是抽样还是下游消费,都需要进行解密
Schema设计
DataHub目前只支持字段的新增,不支持删除和修改,针对上游数据源字段经常发生变动的场景,建议设置允许字段为空,如果上游字段变更的话,针对多出来的字段可以通过SDK新增字段,而对于减少的字段则由于允许为空,值将会置为NULL,不会对业务造成影响
shard 和生命周期设置
shard在DataHub中代表的是并发通道,每个shard每秒吞吐限制为5M/s,每个shardQPS(每秒请求数)为2000次,您可根据这两项指标合理设置shard个数
针对生命周期而言,可以根据业务需要设置,如果需要更改的话,可以使用Java SDK修改生命周期
3.上游的选择
DataHub目前支持的数据采集插件
OGG
OGG for MySQL
OGG for Oracle
LogStash
Flume
Canal插件
Fluentd
注