浅谈数仓分层

本文探讨了数据仓库分层的重要性,旨在通过空间换时间,提高数据处理效率。介绍了ODS、DWD、DWS、DWT和ADS层的功能,如ODS层保持数据原貌,DWD层进行数据清洗,DWS层轻度汇总,DWT层主题汇总,ADS层提供报表数据。分层简化复杂问题,减少重复开发并统一数据口径。
摘要由CSDN通过智能技术生成

为什么分层

数仓分层目的是使用空间换时间,通过大量预处理,提升用户数据加工效率等,故而存在大量数据冗余。如果不分层,源业务系统的业务规则发生变化将会影响整个数据清洗过程,工作量巨大。

  • ODS层:原始数据层,主要存放原始数据,
  • DWD层:主要是对ODS层数据进行数据清洗(去空值,脏数据),维度退化。
  • DWS层:以DWD为基础,按每天进行轻度汇总
  • DWT层:以DWS为基础,按主题进行汇总
  • ADS层:以各种统计报表提供数据

分层好处

  • 1)把复杂的问题简单化:将复杂的任务分解成多层来完成,每一层只处理简单的任务,方便问题定位。
  • 2)减少重复开发:规范数据分层,通过中间层数据,能够减少极大的重复计算。
  • 3)统一数据口径:通过数据分层,提供统一的数据出口,统一对外输出的数据口径

数据仓库建模

ODS层

  1. 保持数据的原貌不变,起到数据可以备份的作用。
  2. 数据压缩,减少磁盘利用
  3. 创建分区表,防止后续全表扫描
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值