数仓理论知识之数据模型

最新推荐文章于 2024-05-15 05:52:51 发布

寒暄

最新推荐文章于 2024-05-15 05:52:51 发布

阅读量662

点赞数

分类专栏： ▼数据仓库文章标签：数据仓库大数据

本文链接：https://blog.csdn.net/qq_41106844/article/details/107199462

版权

5 篇文章 4 订阅

订阅专栏

主要讨论维度建模方式。

数据模型

维度建模是数据仓库大师Ralph Kimball提出的，同时也是数据仓库工程领域最流行的数仓建模经典。

维度建模以分析决策的需求出发构建模型，构建的数据模型为分析需求服务，因此它重点解决用户如何更快速完成分析需求，同时还有较好的大规模复杂查询的响应性能。

它是面向分析的，为了提高查询性能可以增加数据冗余，反规范化的设计技术。

事实表产生于业务过程，存储了业务活动或事件提炼出来的性能度量。从最低的粒度级别来看，事实表行对应一个度量事件。

事实表根据粒度的角色划分不同，可分为事务事实表、周期快照事实表、累积快照事实表。

事务事实表
用于承载事务数据，通常粒度比较低，它是面向事务的，其粒度是每一行对应一个事务，它是最细粒度的事实表，例如产品交易事务事实、ATM交易事务事实。
周期快照事实表
按照一定的时间周期间隔(每天，每月)来捕捉业务活动的执行情况，一旦装入事实表就不会再去更新，它是事务事实表的补充。用来记录有规律的、固定时间间隔的业务累计数据，通常粒度比较高，例如账户月平均余额事实表。
累计快照事实表
用来记录具有时间跨度的业务处理过程的整个过程的信息，每个生命周期一行，通常这类事实表比较少见。

注意：这里需要值得注意的是，在事实表的设计时，一定要注意一个事实表只能有一个粒度，不能将不同粒度的事实建立在同一张事实表中。

维度表是维度建模的核心，他基于一致性维度的架构，他指业务过程的发生或分析角度。同时维度表有两种特殊的维度–退化维度与缓慢变化维度。

退化维度
一些维度直接退化进事实表中，一般用于分组分析时使用。
这种退化维度一般都是事务的编号，如订单编号、发票编号等。这类编号需要保存到事实表中，但是不需要对应的维度表，所以称为退化维度。
看起来像是事实表的一个维度关键字，但实际上并没有对应的维度表。
缓慢变化维度
维度的属性并不是始终不变的，它会随着时间的流逝发生缓慢的变化，这种随时间发生变化的维度我们一般称之为缓慢变化维。
推荐使用拉链表的方式解决。

建模分为四步:

可以看我这一篇文章：数据仓库建模流程

企业中最流行、也是最经典的数仓建模经典。

即实体关系（ER）模型，数据仓库之父Immon提出的，从全企业的高度设计一个3NF模型，用实体加关系描述的数据模型描述企业业务架构，在范式理论上符合3NF。此建模方法，对建模人员的能力要求非常高。

DataVault由Hub（关键核心业务实体）、Link（关系）、Satellite（实体属性）三部分组成，是Dan Linstedt发起创建的一种模型方法论，它是在ER关系模型上的衍生，同时设计的出发点也是为了实现数据的整合，并非为数据决策分析直接使用。

高度可扩展的模型，所有的扩展只是添加而不是修改，因此它将模型规范到6NF，基本变成了K-V结构模型。企业很少使用。

关注