实时数仓的实施关键点:
端到端数据延迟、数据流量的监控
故障的快速恢复能力
数据的回溯处理,系统支持消费指定时间段内的数据
实时数据从实时数仓中查询,T+1数据借助离线通道修正
数据地图、数据血缘关系的梳理
业务数据质量的实时监控,初期可以根据规则的方式来识别质量状况
原始层
ods:原始数据层,事实数据,存储在kafka中
明细层
dwd:数据明细层,可以做一些join等加宽处理,可以存储在kafka和redis中
汇总层
dim:维度数据,如存储在HBase中的数据
应用层
dm:MySQL -> 汇总指标模型;Greenplum -> 明细,多维分析关联;HBase -> 汇总指标(大量并发);Redis -> 汇总、大列表TopN