实时计算Flink > 独享模式 > Batch(试用) > 创建源表 —— 创建DataHub源表 请输入关键词...

创建DataHub源表

数据总线(DATAHUB)

DataHub作为一个流式数据总线,为阿里云数加平台提供了大数据的入口服务。结合阿里云众多云产品,可以构建一站式的数据处理平台。流计算通常使用DataHub作为流式数据存储头和输出目的端。同时,上游众多流式数据,包括DTS、IOT等均选择DataHub作为大数据平台的数据入口。

DataHub本身是流数据存储,Flink可将其作为批处理的输入。示例如下:

 
   
  1. create table datahub_stream(
  2. name varchar,
  3. age BIGINT,
  4. birthday BIGINT
  5. ) with (
  6. type='datahub',
  7. endPoint='http://dh-et2.aliyun-inc.com',
  8. project='blink_datahub_test',
  9. topic='test_topic_1',
  10. accessId='0i70RRFJXXXX',
  11. accessKey='yF60EwURseo1UAn4NiXXXXXhCfHU',
  12. startTime='2017-07-21 00:00:00',
  13. endTime='2017-07-21 01:00:00',
  14. blinkEnvironmentTypeKey='batchExec'
  15. );

注意: 作为批处理的输入时,必须指定起始及结束时间。

属性字段

目前默认支持的属性字段如下,也支持其他自定义写入的字段:

字段名注释说明
timestamp每条记录入datahub的systemtime

属性字段的定义和获取详见获取源表属性字段

WITH参数

目前只支持tuple模式的topic。

参数注释说明备注
endPoint消费端点信息
accessId读取的accessId
accessKey读取的密钥
project读取的项目
topicproject下的具体的topic
startTime日志开始时间格式为yyyy-MM-dd hh:mm:ss
maxRetryTimes读取最大尝试次数可选,默认为20。
retryIntervalMs重试间隔可选,默认为1000。
batchReadSize单次读取条数可选,默认为10。
lengthCheck单行字段条数检查策略可选,默认为SKIP。其它可选值为EXCEPTIONPADSKIP表示字段数目不符合时跳过 。 EXCEPTION表示字段数目不符合时抛出异常。 PAD表示按顺序填充,不存在的置为null。
columnErrorDebug是否打开调试开关,如果打开,会把解析异常的log打印出来。可选,默认为false
isBlobdatahub是否为blob类型可选,默认为false。2.0.x版本开始支持
endTimedatahub日志数据结束时间批处理方式读取datahub数据时,必须声明该参数。

注意:使用blob类型时,字段需要声明成varbinary类型,与metaq类似。

类型映射

DataHub和流计算字段类型对应关系,建议您使用该对应关系进行DDL声明。

DataHub字段类型流计算字段类型
BIGINTBIGINT
DOUBLEDOUBLE
TIMESTAMPBIGINT
BOOLEANBOOLEAN
DECIMALDECIMAL
本文转自实时计算—— 创建DataHub源表
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值