浅谈数仓分层

本文探讨了数据仓库分层的重要性,旨在通过空间换时间,提高数据处理效率。介绍了ODS、DWD、DWS、DWT和ADS层的功能,如ODS层保持数据原貌,DWD层进行数据清洗,DWS层轻度汇总,DWT层主题汇总,ADS层提供报表数据。分层简化复杂问题,减少重复开发并统一数据口径。
摘要由CSDN通过智能技术生成

为什么分层

数仓分层目的是使用空间换时间,通过大量预处理,提升用户数据加工效率等,故而存在大量数据冗余。如果不分层,源业务系统的业务规则发生变化将会影响整个数据清洗过程,工作量巨大。

  • ODS层:原始数据层,主要存放原始数据,
  • DWD层:主要是对ODS层数据进行数据清洗(去空值,脏数据),维度退化。
  • DWS层:以DWD为基础,按每天进行轻度汇总
  • DWT层:以DWS为基础,按主题进行汇总
  • ADS层:以各种统计报表提供数据

分层好处

  • 1)把复杂的问题简单化:将复杂的任务分解成多层来完成,每一层只处理简单的任务,方便问题定位。
  • 2)减少重复开发:规范数据分层,通过中间层数据,能够减少极大的重复计算。
  • 3)统一数据口径:通过数据分层,提供统一的数据出口,统一对外输出的数据口径

数据仓库建模

ODS层

  1. 保持数据的原貌不变,起到数据可以备份的作用。
  2. 数据压缩,减少磁盘利用
  3. 创建分区表,防止后续全表扫描
  • 1
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
数仓分层是为了有效地组织和管理数据,提高数据仓库系统的性能和可维护性。以下是数仓分层的一些原因: 1. 数据整合和清洗:数据仓库通常需要从多个不同的数据源中获取数据,而这些数据源可能具有不同的数据格式和结构。通过将数据仓库分成不同级,可以更好地对数据进行整合和清洗,以确保数据的一致性和准确性。 2. 数据存储和访问的效率:数据仓库中通常包含大量的数据,因此需要有效的存储和访问方式。通过将数据仓库按照不同级进行划分,可以根据数据的访问频率和重要性将数据存储在不同的存储介质中,以提高数据的读写效率。 3. 数据安全和权限控制:数据仓库中包含的数据可能是敏感的,需要进行严格的权限控制。通过将数据仓库分层,可以将不同级的数据进行不同程度的保护和权限设置,从而确保只有合适的人员能够访问和操作数据。 4. 数据分析和报告:数据仓库通常用于支持数据分析和生成报告的目的。通过将数据按照不同级进行划分,可以更好地满足不同用户的需求,从而提高数据分析和报告的效率和准确性。 5. 系统维护和开发的可管理性:数据仓库是一个复杂的系统,需要进行定期的维护和开发工作。通过将数据仓库按照不同级进行划分,可以更好地组织和管理系统的不同模块,从而提高系统的可维护性和可管理性。 综上所述,数仓分层是为了更好地组织和管理数据,并提高数据仓库系统的性能、安全性和可维护性。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值