实时数仓当前主流架构(精简总结收藏!!)

1-实时数仓架构特点

1.1-数仓分层明显少于离线数仓

一般实时数仓主要是公共层的模型层,缩短数据处理时间,保证数据及时性。

1.2-数据存储的多样化

离线数仓的数据一般存储于hdfs,但是对于实时数仓的数据,一般使用kafka存储ods贴源层,dwd明细数据,dim维度数据更多的存储在HBase中,也可能存储在redis中

1.3-技术难度远高于离线数仓

目前实时数仓技术栈主要是canal+kafka+flink+hbase+clickhouse,相对于写hivesql来说,难度提升了不少,而且实时数仓对数据的准确性及实时性要求比较高。

2-实时数仓应用场景

实时监控,实时推荐

3-实时数仓架构

3.1-lamdba架构

在这里插入图片描述

3.2-kappa架构

在这里插入图片描述
与 lamdba架构不同点在于,kappa架构全部移除离线部分,用实时生产替代

3.3-架构对比

在这里插入图片描述

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值