目录
1-实时数仓架构特点
1.1-数仓分层明显少于离线数仓
一般实时数仓主要是公共层的模型层,缩短数据处理时间,保证数据及时性。
1.2-数据存储的多样化
离线数仓的数据一般存储于hdfs,但是对于实时数仓的数据,一般使用kafka存储ods贴源层,dwd明细数据,dim维度数据更多的存储在HBase中,也可能存储在redis中
1.3-技术难度远高于离线数仓
目前实时数仓技术栈主要是canal+kafka+flink+hbase+clickhouse,相对于写hivesql来说,难度提升了不少,而且实时数仓对数据的准确性及实时性要求比较高。
2-实时数仓应用场景
实时监控,实时推荐
3-实时数仓架构
3.1-lamdba架构
3.2-kappa架构
与 lamdba架构不同点在于,kappa架构全部移除离线部分,用实时生产替代