![](https://img-blog.csdnimg.cn/dbd1c5bfea644446bb6395000f5f0dc6.jpeg?x-oss-process=image/resize,m_fixed,h_224,w_224)
数仓
文章平均质量分 66
数仓
Stig_Q
我认出风暴而激动如大海
展开
-
Hive:LATERAL VIEW 使用总结
lateral view用于和split, explode等UDTF一起使用,它能够将一行数据拆成多行数据,在此基础上可以对拆分后的数据进行聚合。lateral view首先为原始表的每行调用UDTF,UTDF会把一行拆分成一或者多行,lateral view再把结果组合,产生一个支持别名表的虚拟表。转载 2023-02-20 17:43:42 · 825 阅读 · 0 评论 -
Hive函数用法:Cast(字段名 as 转换的类型 )
Hive函数用法:Cast(字段名 as 转换的类型 )原创 2023-02-16 14:03:35 · 1503 阅读 · 0 评论 -
数仓事实表分类:事务事实表,周期快照事实表,累计快照事实表。
建模数仓领域中的事实表大致分以下三种:事务事实表,周期快照事实表,累计事实表。事务事实表与周期快照事实表、累积快照事实表虽然使用相同的一致性维度,但是它们在内容构成以及业务描述上还是有很大的区别。原创 2023-02-16 11:24:13 · 1250 阅读 · 0 评论 -
数仓范式建模、ER实体建模和维度建模
维度建模以数据分析作为出发点,为数据分析服务,因此它关注的重点的用户如何更快的完成需求分析以及如何实现较好的大规模复杂查询的响应性能。建模方式在范式理论上符合3NF,这里的3NF与OLTP中的3NF还是有点区别的:关系数据库中的3NF是针对具体的业务流程的实体对象关系抽象,而数据仓库的3NF是站在企业角度面向主题的抽象。这种建模方法的出发点是整合数据,其目的是将整个企业的数据进行组合和合并,并进行规范处理,减少数据冗余性,保证数据的一致性。能够结合业务系统的数据模型,较方便的实现数据仓库的模型;原创 2022-11-22 14:39:46 · 1316 阅读 · 0 评论 -
星型模型和雪花型模型的区别
星型模型因为数据的冗余所以很多统计查询不需要做外部的连接,因此一般情况下效率比雪花型模型要高。它对星型模型的维表进一步层次化,原有的各维表可能被扩展为小的事实表,形成一些局部的 "层次 " 区域,这些被分解的表都连接到主维度表而不是事实表。星型架构是一种非正规化的结构,多维数据集的每一个维度都直接与事实表相连接,不存在渐变维度,所以数据有一定的冗余,如在地域维度表中,存在国家 A省 B 的城市 C 以及国家 A 省 B 的城市 D 两条记录,那么国家 A 和省 B 的信息分别存储了两次,即存在冗余。原创 2022-11-22 14:28:43 · 475 阅读 · 0 评论