维度建模理论之维度表

本文详细介绍了维度表在数据建模中的重要性,包括设计步骤、规范化与反规范化的选择、以及处理多值维度和属性的方法。重点讨论了星型和雪花模型在易用性和性能上的权衡,以及全量快照表和拉链表在维度历史状态保存的不同策略。
摘要由CSDN通过智能技术生成
 

维度表概述

维度表是维度建模的基础和灵魂。前文提到,事实表紧紧围绕业务过程进行设计,而维度表则围绕业务过程所处的环境进行设计。维度表主要包含一个主键和各种维度字段,维度字段称为维度属性。

维度表设计步骤

1)确定维度(表)

在设计事实表时,已经确定了与每个事实表相关的维度,理论上每个相关维度均需对应一张维度表。需要注意到,可能存在多个事实表与同一个维度都相关的情况,这种情况需保证维度的唯一性,即只创建一张维度表。另外,如果某些维度表的维度属性很少,例如只有一个**名称,则可不创建该维度表,而把该表的维度属性直接增加到与之相关的事实表中,这个操作称为维度退化

2)确定主维表和相关维表

此处的主维表和相关维表均指业务系统中与某维度相关的表。例如业务系统中与商品相关的表有sku_info,spu_info,base_trademark,base_category3,base_category2,base_category1等,其中sku_info就称为商品维度的主维表,其余表称为商品维度的相关维表。维度表的粒度通常与主维表相同。

3)确定维度属性

确定维度属性即确定维度表字段。维度属性主要来自于业务系统中与该维度对应的主维表和相关维表。维度属性可直接从主维表或相关维表中选择,也可通过进一步加工得到。

确定维度属性时,需要遵循以下要求:

1)尽可能生成丰富的维度属性

维度属性是后续做分析统计时的查询约束条件、分组字段的基本来源,是数据易用性的关键。维度属性的丰富程度直接影响到数据模型能够支持的指标的丰富程度。

2)尽量不使用编码,而使用明确的文字说明,一般可以编码和文字共存。

3)尽量沉淀出通用的维度属性

有些维度属性的获取需要进行比较复杂的逻辑处理,例如需要通过多个字段拼接得到。为避免后续每次使用时的重复处理,可将这些维度属性沉淀到维度表中。

维度设计要点

3.1 规范化与反规范化

规范化是指使用一系列范式设计数据库的过程,其目的是减少数据冗余,增强数据的一致性。通常情况下,规范化之后,一张表的字段会拆分到多张表。

反规范化是指将多张表的数据冗余到一张表,其目的是减少join操作,提高查询性能。

在设计维度表时,如果对其进行规范化,得到的维度模型称为雪花模型,如果对其进行反规范化,得到的模型称为星型模型。

1、星型模型

955f9f7e46d44db9bdac9dc8bd64a4dc.png

        雪花模型与星型模型的区别主要在于维度表是否进行规范化。

2、雪花模型

6255d2fb194d4a1b8f50eb4301a34136.png

雪花模型,比较靠近3NF,但是无法完全遵守,因为遵循3NF的性能成本太高。

 

数据仓库系统的主要目的是用于数据分析和统计,所以是否方便用户进行统计分析决定了模型的优劣。采用雪花模型,用户在统计分析的过程中需要大量的关联操作,使用复杂度高,同时查询性能很差,而采用星型模型,则方便、易用且性能好。所以出于易用性和性能的考虑,维度表一般是很不规范化的。

3.2 维度变化

维度属性通常不是静态的,而是会随时间变化的,数据仓库的一个重要特点就是反映历史的变化,所以如何保存维度的历史状态是维度设计的重要工作之一。保存维度数据的历史状态,通常有以下两种做法,分别是全量快照表和拉链表。

1)全量快照表

离线数据仓库的计算周期通常为每天一次,所以可以每天保存一份全量的维度数据。这种方式的优点和缺点都很明显。

优点是简单而有效,开发和维护成本低,且方便理解和使用。

缺点是浪费存储空间,尤其是当数据的变化比例比较低时。

2)拉链表

拉链表的意义就在于能够更加高效的保存维度信息的历史状态。

1)什么是拉链表

拉链表,记录每条信息的生命周期,一旦一条记录的生命周期结束,就重新开始一条新的记录,并把当前日期放入生效开始日期。 

如果当前信息至今有效,在生效结束日期中填入一个极大值(如9999-12-31 )。

 

用户ID

姓名

手机号码

开始日期

结束日期

1

张三

136****9090

2019-01-01

2019-01-01

1

张三

137****8989

2019-01-02

2019-01-09

1

张三

147****1234

2019-01-10

9999-12-31

 

2)为什么要做拉链表

拉链表适合于:数据会发生变化,但是变化频率并不高的维度(即:缓慢变化维) 。

比如:用户信息会发生变化,但是每天变化的比例不高。如果数据量有一定规模,按照每日全量的方式保存效率很低。 比如:1亿用户*365天,每天一份用户信息。(做每日全量效率低)

每日全量表

 

用户ID

姓名

手机号码

dt

1

张三

136****9090

2019-01-01

1

张三

136****9090

2019-01-02

1

张三

136****9090

2019-01-03

···

···

···

···

1

张三

136****9090

2019-05-11

1

张三

155****1212

2019-05-12

拉链表

 

用户ID

姓名

手机号码

开始日期

结束日期

1

张三

136****9090

2019-01-01

2019-05-11

1

张三

155****1212

2019-05-12

9999-12-31

 

3)如何使用拉链表

通过,生效开始日期<=某个日期  且 生效结束日期>=某个日期 ,能够得到某个时间点的数据全量切片。

1)拉链表数据

用户ID

姓名

开始时间

结束时间

1

张三

2019-01-01

9999-12-31

2

李四

2019-01-01

2019-01-02

2

李小四

2019-01-03

9999-12-31

3

王五

2019-01-01

9999-12-31

4

赵六

2019-01-02

9999-12-31

2)例如获取2019-01-01的历史切片:select * from user_info where start_date<=’2019-01-01’ and end_date>=’2019-01-01’

用户ID

姓名

开始时间

结束时间

1

张三

2019-01-01

9999-12-31

2

李四

2019-01-01

2019-01-02

3

王五

2019-01-01

9999-12-31

3)例如获取2019-01-02的历史切片: select * from order_info where start_date<=’2019-01-02’ and end_date>=’2019-01-02’

用户ID

姓名

开始时间

结束时间

1

张三

2019-01-01

9999-12-31

2

李四

2019-01-01

2019-01-02

3

王五

2019-01-01

9999-12-31

4

赵六

2019-01-02

9999-12-31

 

3.3 多值维度

如果事实表中一条记录在某个维度表中有多条记录与之对应,称为多值维度。例如,下单事实表中的一条记录为一个订单,一个订单可能包含多个商品,所会商品维度表中就可能有多条数据与之对应。

针对这种情况,通常采用以下两种方案解决。

第一种:降低事实表的粒度,例如将订单事实表的粒度由一个订单降低为一个订单中的一个商品项。

第二种:在事实表中采用多字段保存多个维度值,每个字段保存一个维度id。这种方案只适用于多值维度个数固定的情况。

建议尽量采用第一种方案解决多值维度问题。

3.4 多值属性

维表中的某个属性同时有多个值,称之为“多值属性”,例如商品维度的平台属性和销售属性,每个商品均有多个属性值。

针对这种情况,通常有可以采用以下两种方案。

第一种:将多值属性放到一个字段,该字段内容为key1:value1,key2:value2的形式,例如一个手机商品的平台属性值为“品牌:华为,系统:鸿蒙,CPU:麒麟990”。

第二种:将多值属性放到多个字段,每个字段对应一个属性。这种方案只适用于多值属性个数固定的情况。

 

 

  • 27
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

shangjg3

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值