目录
在做像pv、cv类型的分析,往往借助于一张大宽表和几张维度表,所有的统计分析都基于这张大宽表与维度表。在这种简单的应用场景,这种设计没有问题且简单明了,但是如果业务场景复杂,数据种类多,维度多,那么数据仓库的设计就尤为重要,结构清晰明了的数据仓库设计将方便对问题数据进行排查。数据分层的好处:
清晰数据结构、减少重复开发、数据血缘追踪、把复杂问题简单化、屏蔽原始数据的异常、屏蔽业务的影响,不必改一次业务就需要重新接入数据
数据仓库可分为三层:ODS层、DW层、APP层。
数据运营层:ODS(Operational Data Store)
“面向主题的”数据运营层,也叫ODS层,是最接近数据源中数据的一层,数据源中的数据,经过抽取、洗净、传输,即 ETL 之后,装入本层。本层的数据,总体上大多是按照源头业务系统的分类方式而分类的。
一般来讲,为了考虑后续可能需要追溯数据问题,因此对于这一层就不建议做过多的数据清洗工作,原封不动地接入原始数据即可,至于数据的去噪、去重、异常值处理等过程可以放在后面的DWD层来做。
数据仓库层:DW(Data Warehouse)
数据仓库层从 ODS 层中获得的数据按照主题建立各种数据模型。DW层又细分为 DWD