数据总线(DATAHUB)
DataHub作为一个流式数据总线,为阿里云数加平台提供了大数据的入口服务。结合阿里云众多云产品,可以构建一站式的数据处理平台。实时计算 Flink通常使用DataHub作为流式数据存储头和输出目的端。同时,上游众多流式数据,包括DTS、IOT等均选择DataHub作为大数据平台的数据入口。
DataHub本身是流数据存储,实时计算只能将其作为流式数据输入或者流式数据输出。
DDL定义
实时计算支持使用Datahub作为结果输出。
create table datahub_output(
id int,
len int,
content VARCHAR
) with (
type='datahub',
endPoint='',
project='',
accessKey='',
accessId='',
topic=''
);
Datahub DDL
create table datahub_output(
name varchar,
age BIGINT,
birthday BIGINT
)with(
type='datahub',
endPoint='http://10XXXXXXX9100',
project='blink_connector_datahub_test',
topic='topic_1',
accessId='LTXXXXXXh',
accessKey='CLYqVPjRCIXXXXXXXXATUGoS',
batchSize='1',
batchWriteTimeoutMs='500'
);
注意:推荐使用数据存储功能。如何使用情您参见数据总线(DATAHUB)。
WITH参数
参数 | 注释说明 | 备注 |
---|---|---|
endPoint | Endpoint地址 | 参见DataHub的Endpoint地址 |
project | 项目名 | 无 |
topic | topic表名 | 无 |
accessId | accessId | 无 |
accessKey | accessKey | 无 |
maxRetryTimes | 最大尝试插入次数 | 可选,默认为3 |
batchSize | 每次写的批次大小 | 可选,默认为300 |
batchWriteTimeoutMs | 缓存数据的最大超时时间 | 可选,默认为5000 |
maxBlockMessages | 每次写入的最大Block数 | 可选,默认为100 |
本文转自实时计算——
创建数据总线(DataHub)结果表