数仓分层:
-
ODS (源数据层)
- 存的数据内容
- 需要进行大数据分析的业务关联数据
- 以hive表形式展现,存储在hdfs文件系统
- 特点:导入数据的过程一定不能改变原有的数据内容
- 数据从哪里来
- sqoop是从oracle业务系统中导入的数据
- 存的数据内容
-
DWD (数据明细层)
- 存的数据内容
- 所有业务系统表的明细数据(分区数据)
- 数据从哪里来
- 从ods层按分区导入的数据
- 存的数据内容
-
DWS (维度层 DIM)
- 存的数据内容
- 存储维度层数据:日期维度,地理区域各个不同粒度的维度数据…
- 以orc格式存储数据(压缩:snnapy)
- 如何看压缩格式的性能
- 压缩速度
- 解压速度
- 存储大小
- 如何看压缩格式的性能
- 数据从哪里来
- 从DWD层进行ETL抽取数据到dws层
- 存的数据内容
-
DWB (事实层)
- 存的数据内容
- 存储事实指标数据
- 数据从哪里来
- 从DWD层进行ETL抽取的数据
- 存的数据内容
-
ST (ADS / APP 数据应用层) 宽表
- 存的数据内容
- 数据应用层,存储dwd,dws聚合后的数据,接近分析指标结果数据
- 数据从哪里来
- 从dwd + dws层数据聚合之后,作为st来源
- 存的数据内容
-
DM (数据集市层,宽表)
- 存的数据内容
- 存储以部门划分,业务需求划分的数据
- 数据从哪里来
- 数据从dw层抽取过来(重度汇总数据)
- 存的数据内容