维度表
维度表 :一般是对事实的 描述信息 。每一张维表对应现实世界中的一个对象或者概念。 例如:用户、商品、日期、地区等。
维表的特征:
- 维表的范围很宽(具有多个属性、列比较多)
- 跟事实表相比,行数相对较小:通常< 10万条
- 内容相对固定:编码表
如时间维度表:
日期ID | day of week | day of year | 季度 | 节假日 |
2020-01-01 | 2 | 1 | 1 | 元旦 |
2020-01-02 | 3 | 2 | 1 | 无 |
2020-01-03 | 4 | 3 | 1 | 无 |
2020-01-04 | 5 | 4 | 1 | 无 |
2020-01-05 | 6 | 5 | 1 | 无 |
维度退化: 指的是一些维度表中的字段特别少,只有几个或者一两个的时候,没必要做成维度表,可以直接退化到事实表中存储。如评价等级(好评、中评、差评等)
事实表
事实表中的 每行数据代表一个业务事件(下单、支付、退款、评价等) 。“事实”这个术语表示的是业务事件的 度量值(可统计次数、个数、金额等) ,例如,2 020 年5月2 1 日,宋宋老师在京东花了2 50 块钱买了一瓶海狗人参丸。维度表:时间、用户、商品、商家。事实表:2 50 块钱、一瓶
每一个事实表的行包括:具有可加性的数值型的度量值、与维表相连接的外键,通常具有两个和两个以上的外键。
事实表的特征:
- 非常的大
- 内容相对的窄:列数较少(主要是外键id和度量值)
- 经常发生变化,每天会新增加很多。
1)事务型事实表 ( 增量同步 )
以 每个事务或事件为单位 ,例如一个销售订单记录,一笔支付记录等,作为事实表里的一行数据。一旦事务被提交,事实表数据被插入,数据就不再进行更改, 其更新方式为增量更新。
2)周期型快照事实表 ( 全量同步 )
周期型快照事实表中 不会保留所有数据 , 只保留固定时间间隔的数据 ,例如每天或者每月的销售额,或每月的账户余额等。
例如购物车,有加减商品,随时都有可能变化,但是我们更关心每天结束时这里面有多少商品,方便我们后期统计分析。
3)累积型快照事实表 ( 新增及变化同步 )
累计快照事实表用于跟踪业务事实的变化。 例如,数据仓库中可能需要累积或者存储订单从下订单开始,到订单商品被打包、运输、和签收的各个业务阶段的时间点数据来跟踪订单声明周期的进展情况。当这个业务过程进行时,事实表的记录也要不断更新。
订单 id | 用户id | 下单时间 | 打包时间 | 发货时间 | 签收时间 | 订单金额 |
|
| 3 -8 | 3 -8 | 3 -9 | 3 -10 |
|