数仓
文章平均质量分 65
胖胖学编程
这个作者很懒,什么都没留下…
展开
-
[数仓]事实表:周期快照 | 累计快照 | 无事实的事实表 | 迟到的事实表 | 累积度量
除数字类型的度量值外,事实表总是包含所引用维度表的外键,也可能包含可选的退化维度键或时间戳。数据分析的实质就是基于事实表开展计算和聚合操作。原创 2023-07-12 11:30:06 · 780 阅读 · 0 评论 -
[数仓]如何划分维度表还是事实表
事实表一般由维度表的外键和度量值组成,但是一般会有退化维度,避免join太多次。维度表一般是对事实表做描述,每一张维度相当于java中的一个对象。维度表的特征:维度表和事实表相比,行数相对较小:通常原创 2023-02-03 09:00:14 · 427 阅读 · 0 评论 -
[hive]数仓分层|用户纬度拉链表|维度建模
针对上述场景可以设计一张地区表,其主键为地区ID,字段为:下单次数,下单金额,支付次数,支付金额等,上述所有指标统一进行计算,并将结果保存在该宽表中,这样就能有效避免数据的重复计算。数据时间漂移:用户手机中存的前端的数据会累积到一定条数再发送到服务器,例如80条,假如用户1-1存了40条就关掉了app,1-2打开了app,这40条的数据就会变成1-2的了。dwd层是对事实表的处理,代表的是业务的最小粒度层,任何数据的记录都可以从这一层获取,为后续的dws和dwt层做准备。用户维度表:维度表。原创 2023-01-19 16:29:01 · 1463 阅读 · 0 评论 -
[hive]维度模型分类:星型模型,雪花模型,星座模型|范式
z=f(x,y)当给定x,y则能计算出z,当给x,y,n时,也能计算出z,此时z部分函数依赖于z,y,n。比如通过(学号,课程)推出姓名,因为可以直接通过学号退出姓名,所以:姓名部分依赖于(学号,课程)。星型模型中只有一张事实表,以及0张或多张维度表,事实与纬度表通过主键外键相关联,维度之间不存在关联关系,当所有纬度都关联到事实表时,整个图形非常像一种星型的结构,所以称之为“星型模型”。主键为:"学号"+"课名"。"分数”完全依赖于(学号,课名),但是姓名并不完全依赖于(学号,课名),姓名只依赖于学号。原创 2023-01-19 14:49:38 · 3622 阅读 · 1 评论 -
[hive]数仓分层|用户纬度拉链表|维度建模 旧
雪花模型与星型模型的区别在于纬度的层级,标准的星型模型纬度只有一层,而雪花模型可能涉及多级。雪花模型比较接近三范式,但是无法完全遵守,因为遵守三范式的性能成本太高。原创 2022-11-08 09:44:21 · 2090 阅读 · 0 评论