文章目录
前言
- 数据仓库的分层是一种组织和管理数据的方法,它帮助用户更有效地处理和分析数据
为什么要对数据仓库分层:
- a)用空间换时间,通过大量的预处理来提升应用系统的用户体验(效率),因此数据仓库会存在大量冗余的数据;
- b)如果不分层的话,如果源业务系统的业务规则发生变化将会影响整个数据清洗过程,工作量巨大
- c)通过数据分层管理可以简化数据清洗的过程,因为把原来一步的工作分到了多个步骤去完成,相当于把一个复杂的工作拆成了多个简单的工作,把一个大的黑盒变成了一个白盒,每一层的处理逻辑都相对简单和容易理解,这样我们比较容易保证每一个步骤的正确性,当数据发生错误的时候,往往我们只需要局部调整某个步骤即可。
数据仓库的分层模型通常包括以下几个主要层次:
数据引入层(ODS
层Operation Data Store)
- ODS层不对原始数据做任何处理,与业务系统中数据一致。在业务系统和数据仓库之间形成一个隔离,业务系统数据结构的变化不影响其他数据分层。同时减轻业务系统被反复抽取的压力,由ODS统一进行抽取和分发。
公共维度层(DIM
, Dimension)
- 这一层包含用于描述业务数据的特征的信息,如地理位置、时间等。
数据明细层(DWD
层 Data Warehouse Detail)
- 这一层接收并处理来自ODS层的原始数据,进行清洗、标准化、维度退化、异常数据剔除等操作,为数据分析提供支持。
数据汇总层(DWS
层 Data Warehouse Summary)
- DWS层数据 按主题对数据进行抽象、归类,提供业务系统细节数据的长期沉淀。这一层是一些汇总后的宽表,是根据DWD层数据按照各种维度或多种维度组合,把需要查询的一些事实字段进行汇总统计。可以满足一些特定查询、数据挖掘应用,面向业务层面,根据需求进行汇总。
数据应用层(ADS
层Application Data Service)
- ADS应用层是根据业务需要,由DWD、DWS数据统计而出的结果,可以直接提供查询展示,或导入至Oracle、Mysql、Doris等数据库中使用,加速数据查询性能,提供数据服务。
总结
如果此篇文章有帮助到您, 希望打大佬们能
关注
、点赞
、收藏
、评论
支持一波,非常感谢大家!
如果有不对的地方请指正!!!