(1)ETL
ETL就是将数据从数据来源端经过抽取、交互转换、加载至目的端的过程。
抽取时可以选择全量同步和增量同步两种方式,全量同步会将全部数据进行抽取,一般用于初始化数据装载。增量同步会监测数据变动,只抽取变动的数据,一般用于数据更新。
数据转换分为清晰和转换,清晰时要对数据去重、清楚违反业务逻辑的数据。转换时要进行标准化处理、转换数据类型等。
最后将处理完的数据导入对应目标源里。
常用ETL工具有Sqoop和Kettle等。
(2)数据操作层(ODS)
ODS中的数据与原业务数据一致,只是增加了管理用的时间字段。存储的历史数据是只读的,供业务系统查询使用。
(3)数据明细层(DWD)
对数据进行清洗、标准化、维度退化(一些维度就存在事实表中,而不单独用维度表储存,通常是一些编号),仍然满足三范式。
(4)数据汇总层(DWS)
将数据明细层的数据按照分析主题进行计算汇总,存放便于分析的宽表。此时的表不满足三范式,而是注重数据聚合,复杂查询、处理性能更优的数仓模型,如星型、雪花模型。
(5)数据应用层(ADS)
也被称为数据集市。存储数据分析结果,为不同业务场景提供接口,减轻数据仓库的负担。数据应用层支持报表决策、并发查询和搜索检索。