目录
1 说明
离线过程与实时过程的数仓的分层一般有所不同
2 数据仓库“分层”的优势
(1)把复杂的问题简单化;通过把复杂的问题分解成多层,每次只处理简单任务。
(2)减少重复开发;规范数据分层,通过的中间层数据,能够减少极大的重复计算
(3)隔离原始数据
3 离线数仓的数据分层
1)数据操作层ODS
存放原始数据,直接加载原始日志,数据,数据保持原貌不做处理。
2)数据明细层DWD
对ODS层的数据进行清洗(去除空值,脏数据,超过极限范围的数据),维度退化,脱敏等。
3)数据服务层DWS
以DWD层的数据为基础,对数据进行轻度汇总
4)数据主题层DWT
以DWS层的数据为基础,对数据按照主题进行汇总
5)数据应用层ADS
ADS层,主要为各种统计报表等提供数据
4 实时数仓的数据分层
1)数据操作层ODS
存放原始数据,直接加载原始日志,数据,数据保持原貌不做处理。
2) 数据明细层DWD
根据数据对象为单位进行分流,比如订单,页面访问等等
3)DIM层
存放维度数据
4)DWM层
对部分数据对象进行进一步加工,比如独立访问等,也可以和维度进行关联,形成宽表,依旧是明细数据。
4)数据服务层DWS
根据某个主题将多个事实数据轻度聚合,形成主题宽表
5)数据应用层ADS
把clickhouse中的数据根据可视化进行筛选