数仓中的缓慢变化维

最新推荐文章于 2024-06-07 09:00:00 发布

红岸水滴

最新推荐文章于 2024-06-07 09:00:00 发布

阅读量1.6k

点赞数 1

分类专栏：数据仓库文章标签：缓慢变化维维度表数据仓库

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/fenglei0415/article/details/107586011

版权

数据仓库专栏收录该内容

9 篇文章 9 订阅

订阅专栏

数据仓库中的事实表总是在变化中，通常是新的业务数据不断装载到DW。事实表数据的增加是正常现象，也无需特别处理。但很多时候维度表的数据也会发生变化，且维度表的数据变化会导致维度表和事实表的关系发生了变化。

那什么是缓慢变化维？大概意思就是数据会发生缓慢变化的维度叫缓慢变化维，是维度，维度，维度表。所以合理处理缓慢变化维也是数仓中模型设计比较关键的。

举个栗子：

每个公司都会有销售人员或者是市场推广人员。在数据仓库中，事实表记录着业务人员的销售记录，维度表更新着业务人员的最新信息。假如一天，小王从北京调到上海开展业务，那么他以后的业绩肯定是算到上海区域了，但是调离前的业绩还是要算到北京的，这个变化怎么处理比较合适呢？这就涉及到缓慢变化维这个概念了。

通用的几种方法：

一. 新数据覆盖旧数据

前提是这个变化是公司不care的，或者是对业务人员没有影响的。公司统计的是全国业绩，业务人员去到哪里都一样，那新数据直接覆盖旧数据就可以了。

二. 保存多条记录，并添加字段加以区分

这种情况就是插入新的一条记录，同时保留原有的数据，并用单独的字段保存区别。如：

以上是添加新版本数据和新旧数据的标识，所有旧维度都把disable置为0，这样能保存所有的变化记录。

下面一种则是添加记录的生效日期和失效日期来标识新旧数据。

这种就是可以查到具体时间内业务员工作的区域了，还能通过end_date=30000000来刷选上图disable=1的数据。

三. 不同字段保存不同值

这种就是你要肯定以及保证维度数据只会更改一次，否则这么设计太蠢了。比如性别，谁还能变化两次，那这样设计就当然ok。既然这么说，实际中还真遇到了这种事！但话又说回来，谁能保证哪个字段会有变化呢，这种设计也只能存在想法中吧。

四. 另外建表保存历史记录

也就是说建一个历史表来保存变化的历史记录，而线上的维度表只保存当前数据。

这种方法想想也不方便，使用其起来还要去关联，不方便做统计。pass掉。

五. 混合模式

混合体，更全面，更能应对错综复杂且易变得用户需求，比较常用。

这种方法有几种优点：

能用简单的过滤条件选出维度当前的值。
能较容易的关联出历史任意一时刻事实数据的值。
如果事实表中有一些时间字段(如：order_date, pay_date, login_date)，那么我们很容易选择哪一条维度数据进行关联分析。

六. 非常规混合模式

想到第六种方法是因为第五种方法有个弊端，就是维度表每个业务员都会有一个uuid，唯一且不变的。那就导致和事实表关联时是多对多的关系。这种关系不能在建模时解决，只能在报表层面，在报表运行时解决，且在BI语意层建模时需要添加时间过滤条件，比较繁琐。

那这种设计的本质就是维表里添加一个字段version_num，递增，来标注版本号，而当前最新数据version_num永远为0。

事实表中插入数据时所有的维度数据版本号也始终全部为0。

因此这种方案完全可解决事实表和维表多对多关系问题，另外还有个优点是能保证事实表和维表的参照完整性，而且我们在用ERwin,PowerDesigner等建模工具建模时，version_num和uuid可作为复合主键在两实体间建立链接。灵活运用。

关注

1
点赞
踩
11

收藏

觉得还不错? 一键收藏
3
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

红岸水滴 CSDN认证博客专家 CSDN认证企业博客

码龄6年

88: 原创

4万+: 周排名

127万+: 总排名

22万+: 访问

: 等级

2729: 积分

185: 粉丝

125: 获赞

51: 评论

494: 收藏

私信

关注

分类专栏

分布式 2篇
数据仓库 9篇
Spark 4篇
Hive 3篇
Kafka 10篇
大数据 14篇
算法 14篇
python 20篇
linux 6篇
爬虫 3篇
数据分析 1篇
python进阶 4篇
数据结构 16篇
数据库 12篇
java 3篇
javascript 2篇
生活 3篇
工具 5篇

最新评论

kafka请求队列模块
青生先森: 抄的不错，下次继续
数仓中的缓慢变化维
Keven He: 拉链表是不是一种更好的方式呢
SparkSql 有关谓词下推
fendouderen: 博主，你好文章中提到的join后的条件（右表不下推）的这个结论，我这边测试的结果是右表的也会进行谓词下推的，spark的优化器会把join的方式优化成inner join,我这边测试用的是spark2.4.0的版本和spark3.3.2的版本；如果我的结论有问题，还请指教；谢谢
scrapy-redis架构
mukes: 博主，你博文里的这张图来源哪里？我在scrapy-redis github库中都没看到
单节点事务与分布式事务
技术小白白~: 大神总结的真好，技术肯定也不错平时可以多交流吗？

最新文章

目录

评论 3

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。