Flink实时数仓落地方案

实时数仓架构图:

说明:

数据采集层:原始数据目前分三种,由中台生成的埋点日志用于主流,RDBMS则是获取业务库表,通常用于维表关系所需,binlog日志通过cdc方式进入kafka进行消费,用于大维表的增量更新。

数据计算层:数据计算层的计算引擎是Flink,通过较上层的FlinkSQL实现数据的ETL加工,其中HDFS作用于大维表初始化到Hbase过程所用,再通过Flinksql消费binlog日志进行增量更新。

数据共享层:通过Flinksql对主流表进行打宽后输出到dw层kafka为最终的结果明细数据,Clickhouse支持通过这个Kafka进行批量插入操作,可通过Flinksql多维度轻度汇总写入到RDBMS,也可接入Skyeye平台进行配置计算结果输出到wtable。

数据应用层:数据应用层为OLAP分析工具,通过接入数据共享层数据即可进行实时报表展现,实时播报,即席查询等功能。

数据流程图:

v1.0

v2.0

说明:

如上图所示,从最源端出发,中台埋点日志通过flume采集到kafka,mysql的binlog日志由cdc方式采集到kafka,通过Flinksql消费kafka数据进行ETL并输出宽表,其中维表分为大维表(百万级以上数据量)及小维表,大维表需要通过Hive历史数据进行初始化到Hbase中,并通过binlog数据由Flinksql进行消费增量更新到Hbase中,小维表直接查询维表库或业务从库进行缓存。宽表明细数据会输出第二个dw层kafka,通过此kafka及可做汇总等操作输出到最终共享层,clickhouse有很强的大数据量聚合能力,在单表查询上也有很好的表现,为自助查询平台及实时分析工具提供数据支撑,但不支持update/delete操作,且不支持高并发场景,官方建议qps是100

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值