如何优雅地设计DWS层？ | StartDT Tech Lab 17

最新推荐文章于 2024-06-04 19:30:00 发布

奇点云

最新推荐文章于 2024-06-04 19:30:00 发布

阅读量886

点赞数 2

分类专栏： StartDT Tech Lab 文章标签：数据仓库数据挖掘数据库

本文链接：https://blog.csdn.net/StartDT/article/details/126993779

版权

StartDT Tech Lab 专栏收录该内容

19 篇文章 3 订阅

订阅专栏

写在前面

这是奇点云技术专栏「StartDT Tech Lab」的第17期。在这里，我们聚焦数据技术，分享方法论与实战…滑到文末，可以看到我们的往期内容。

如有希望我们分享讨论的话题，欢迎在文末留言哦！

本篇由奇点云资深数据开发工程师「云祁」带来：

作者：云祁

阅读时间：约9分钟

大家好，云祁又来了！今天聊一个老生常谈的话题，如何设计DWS层？

对于数仓的分层，想必大家都不陌生。基于OneData方法论的三层数仓划分：数据引入层（ODS，Operational Data Store）、数据公共层（CDM，Common Dimension Model）和数据应用层（ADS，Application Data Store）早就深入人心。

当然啦，涉及到每一层具体该怎么开发、建模，可能大家都有自己的理解。

但好在大家对数据建模重要性的认识都是一致的，如果我们把指标比作树上的果实，那么模型就好比是大树的躯干，想让果实结得好，必须让树干变得粗壮。

我们先来回想下，构建数据中台的初衷是什么——我们通常会遇到这些问题：

· 缺少可以复用的数据；

· 大家不得不使用原始数据进行清洗、加工和计算指标；

· 大量重复代码的开发对资源的消耗。

问题的根源就在于数据模型的无法复用，以及数据开发都是烟囱式的。所以要解决这个问题，就要搞清楚健壮的数据模型该如何设计。

1. 常见的数仓分层设计思路

下图是数仓分层的逻辑架构图，我们回忆一下数据模型的分层设计：

1.1

数据引入层

数据引入层（ODS，Operational Data Store），又称数据基础层。我们将原始数据几乎无处理地存放在数据仓库系统中，结构上与源系统基本保持一致，是数据仓库的数据准备区。这一层的主要职责是将基础数据同步、存储。

1.2

数据公共层

在数据公共层（CDM，Common Dimension Model），存放明细事实数据、维表数据及公共指标汇总数据。

其中，明细事实数据、维表数据一般根据ODS层数据加工生成。公共指标汇总数据一般根据维表数据和明细事实数据加工生成。CDM层又细分为维度层（DIM）、明细数据层（DWD）和汇总数据层（DWS），采用维度模型方法作为理论基础，可以定义维度模型主键与事实模型中外键关系，减少数据冗余，也提高明细数据表的易用性。在汇总数据层同样可以关联复用统计粒度中的维度，采取更多的宽表化手段构建公共指标数据层，提升公共指标的复用性，减少重复加工。

1）维度层（DIM，Dimension）

以维度作为建模驱动，基于每个维度的业务含义，通过添加维度属性、关联维度等定义计算逻辑，完成属性定义的过程并建立一致的数据分析维表。为了避免在维度模型中冗余关联维度的属性，基于雪花模型构建维度表。

2）明细数据层（DWD，Data Warehouse Detail）

以业务过程作为建模驱动，基于每个具体的业务过程特点，构建最细粒度的明细事实表。可将某些重要属性字段做适当冗余，也即宽表化处理。

3）汇总数据层（DWS，Data Warehouse Summary）

以分析的主题对象作为建模驱动，基于上层的应用和产品的指标需求，构建公共粒度的汇总指标表。以宽表化手段物理化模型，构建命名规范、口径一致的统计指标，为上层提供公共指标，建立汇总宽表、明细事实表。

1.3

数据应用层

数据应用层（ADS，Application Data Store）存放数据产品个性化的统计指标数据，根据CDM层与ODS层加工生成。

2. 为什么DWS层很重要？

通常，大家都会有这样的疑问：明明可以直接从DWD层取数，为什么要多此一举建立DWS的汇总逻辑表呢？

其实，如果业务场景不复杂，那样做是没有问题的。可一旦面对复杂的业务场景，那这种做法无疑是混乱的根源所在。前面提到的烟囱式开发、计算资源的浪费等等情况，正是这样产生的。