主题(Subject):是在较高层次上将企业信息系统中的数据进行综合、归类和分析利用的一个抽象概念,每一个主题基本对应一个宏观的分析领域。在逻辑意义上,它是对应企业中某一宏观分析领域所涉及的分析对象。例如“销售分析”就是一个分析领域,因此这个数据仓库应用的主题就是“销售分析”。
本文主要讲解数据仓库的一个重要环节:如何设计数据分层!
- 数据建设刚起步,大部分的数据经过粗暴的数据接入后就直接对接业务。
- 数据建设发展到一定阶段,发现数据的使用杂乱无章,各种业务都是从原始数据直接计算而得。
- 各种重复计算,严重浪费了计算资源,需要优化性能。

一、数据分层方法
为什么要设计数据分层?
了解一些数据仓库知识的,可以提升工作效率。我们肯定希望自己的数据能够有秩序的流转,数据的整个生命周期能够清晰明确被设计者和使用者感知到。
数据体系中的各个表的依赖就像是电线的流向一样,我们都希望它是规整、流向清晰、便于管理的,如下图:
本文详细介绍了数据仓库中的数据分层方法,包括数据运营层(ODS)、数据仓库层(DW,包括DWD、DWM、DWS)、数据应用层(ADS)、维表层(Dimension)和数据产品层(APP)。数据分层旨在清晰数据结构,便于数据血缘追踪,减少重复开发。文章阐述了各层的作用和数据流向,强调了数据仓库设计的重要性,例如通过DWD层进行数据清洗和规范化,DWM层进行轻度聚合,DWS层提供服务宽表,以及ODS层作为原始数据的隔离层。此外,还探讨了ODS与DWD的区别以及数据分层在实际项目中的技术实践,包括数据的实时处理和存储策略。
订阅专栏 解锁全文
1240

被折叠的 条评论
为什么被折叠?



