数据仓库 桥接表_数据仓库经验总结

1.使用代理键而不是自然键作为主键

因为业务系统产生的自然键容易变化重复,而专门生成的整数的代理键可以屏蔽业务系统的不规范

2.使用一致性维度,企业总线架构,而不是数据集市烟囱式架构

3.注重多个系统间共享的主数据管理,方便实现数据治理和跨业务事实表钻取

4.数仓推荐采用星型模式,而不是雪花型模式,尽量不要规范化,如下解释2种模式差别

5.很多事实表的维度,可以建立一些维度表,存储新的代理键,而不是原始数据,例如时间维度,可以建立专门的时间维度表。好处是可以支持查询特殊日期如大促,假期

6.事实表的多个日期,引用都是日期维度,用到的是角色扮演

7.缓慢变化维SCD类型2,实现就是拉链表,适合场景在于每天一份全量太大,大部分都是不变少量变化的表,如果经常变化,不适合拉链表

8.事实表中如果维度只有键值信息,干脆只有一个ID,例如订单ID,叫做退化维度

9.支架表或者微型维度,或者缓慢变化维SCD 类型4,其实就是雪花模式,事实表维度外键另外一个支架表,应用场景例如人口统计维度,因为收入级别会经常变化;如果维度表外键就是SCD类型5;即想看历史又想看当前,就用SCD类型6

10.库存比较适合采用事务快照,周期快照事实,因为库存半可加,订单推荐用累积快照

11.推荐按照企业总线,区分业务过程和公共维度,理清业务建模

12.事实表中大量文本描述的列最好单独建一个维度表存储,这样性能存储都可以节省

13.多值维度或者层次不固定的维度表,都是使用桥接表技术

14.多币种最好在事实表存储一个标准,一个当地,因为汇率变化

15.表示步骤信息的事实可以有步骤维度表

16.可以增加审计维度,作为技术元数据信息

17.事实表粒度声明很重要,同一张表必须统一

18.维度模型设计过程,选择业务过程,声明粒度,确定维度,确定事实

19.事实来自业务过程事件的度量,基本都是数值,度量大部分都是数值型,大部分是可加,也有半可加(库存),不可加(利润率),维度大部分是文本

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值