ER 模型
三种函数依赖
- 完全函数依赖(学号,课名)→分数
- 部分函数依赖(学号,课名)→[只需要学号]姓名
- 传递函数依赖
学号→系名→系主任 但是 系主任!→学号
ER模型遵循三范式
1NF:属性不能分割
2NF:不存在部分函数依赖
3NF:不存在传递函数依赖
注:减少数据冗余
维度模型
维度模型从两个概念呈现
1,事实:通常对应业务过程(下单、付款、退单等) V
2,维度:业务过程所发生的环境(日期、地区、人物身份/特征、产品等) n
注:为数据分析服务
设计事实表
事务型事实表
- 选择一个业务过程(下单、退单)
- 粒度,每行数据代表什么,比订单表,一行数据代表一个商品项
- 维度,主要设计维度外键
- 度量值,就是统计值(件数,个数,总金额)
特点
保存最细粒度的数据,相当于明细层
不足
- 效率低
- 逻辑复杂
周期型快照事实表
-
确定粒度:可由采样周期和维度描述
例如指标:主办业务/技术审批时效
该表粒度=采样周期:每天+维度:1,项目类型,2,审批类型,3,科室,4,项目,5, 子项目 -
确定度量值(由统计指标决定,例如:审批时效p85,总投入资源数)
注:相当于 T +1每日汇总层
累计型快照事实表
主要用于分析各种业务过程(里程牌)之间时间间隔等需求。例如:用户从下单到确认收货的平均时间间隔
- 选择多个关键业务过程
- 粒度,同上
- 维度,注意给每个业务过程添加一个日期维度
- 度量值,同上
维度表
对应不同维度:日期、地区、人物身份/特征、产品
特征:
- 属性多即列多,表比较宽
- 比事实表行数少,通常<10万条
- 内容相对固定,例如编码表,时间维度表,毎日全量同步