一、数据仓库分层的意义
1、明确数据结构
数据仓库分层后,每层完成特定的功能,易于开发管理,如果使用过程中有表数据出错,也便于定位
2、减少重复开发
规范数据分层,创建可复用的中间层数据,能够减少重复计算,提高效率
3、屏蔽原始数据
将统计数据与业务系统数据解耦,避免受业务系统变更的影响
二、数据仓库的层级
1、ODS(operation data store) 原始数据层
ODS层是贴近数据源的一层,一般是将原始数据直接载入,不进行数据清洗操作。
数据来源包括用户行为数据,如点击、浏览、分享等埋点日志数据,通常使用flume进行采集;也包含业务系统数据,如公司的交易数据,使用sqoop导入
2、DWD(data warehouse detail) 明细数据层
结构和粒度与原始表保持一致,对ODS层数据进行清洗,包括去除空值、脏数据、去除重复数据、异常值处理,也可以做局部聚合,将相同主题的数据汇总到同一张表中
3、DWS(data warehouse service) 服务数据层
该层主要加工生成宽表、中间表和维度表。
中间表:在DWD层的基础上对数据进行轻度聚合,根据不同主题或维度生成一系列中间表,以提升数据的复用性,减少重复加工
宽表:通常根据某一个维度,将不同主题的中间表拼接成一张宽表
维表:一种是商品信息、用户资料表等信息表,另一种是枚举值、编码与名称映射等配置表
4、ADS(application data store) 数据应用层
该层主要是根据具体需求指标,从DWS层中加工出结果表,可存储在Hive、ES、Redis中供数据分析和挖掘使用,也可以导出到Mysql、PostgreSql中作可视化展示使用