![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据项目
文章平均质量分 93
大数据老哥
这个作者很懒,什么都没留下…
展开
-
实时数仓|架构设计与技术选型
前言一、技术选型二、需求分型三、架构设计总结原创 2021-01-16 23:22:03 · 2723 阅读 · 55 评论 -
深入讲解拉链表,还怕面试官问?
前言 今天给大家分享一个面试中经常会被问到的拉链表,我在上篇文章中提出来一个需求如果不知道的请去→数仓缓慢变化维深层讲解查看,好,废话不多说我们直接开始。提出的问题会在末尾讲解。一、拉链表介绍(百度百科) 拉链表:维护历史状态,以及最新状态数据的一种表,拉链表根据拉链粒度的不同,实际上相当于快照,只不过做了优原创 2021-01-05 23:53:49 · 6441 阅读 · 23 评论 -
数仓缓慢变化维深层讲解
前言 维度缓慢变化为SCD(Slowly Changing Dimensions)一些维度表的数据不是静态的,而是会随着时间而缓慢地变化(这里的缓慢是相对事实表而言,事实表数据变化的速度比维度表快,如果还不知道什么是事实表和维度表请看→数仓模型设计详细讲解)把处理维度表数据历史变化的问题,称为缓慢变化维问题,简称SCD问题。举例说明 &n原创 2021-01-04 23:19:23 · 3200 阅读 · 1 评论 -
数据仓库分层架构深度讲解
前言 我们在数仓项目的时候往往是需要将它分层的,但是为什么分层你真正的了解过吗,那它分层的好处又是什么呢。好我们今天就针对这个话题进行讲解。如果你还不了解数仓中的模型可以去看这篇(数仓模型设计详细讲解),编写不易请给个一键三连。一、为什么要分层 分层的主要原因是在管理数据的时候,能对数据有一个更加清晰的掌控,详原创 2021-01-03 20:43:49 · 4699 阅读 · 23 评论 -
数仓模型设计详细讲解
前言 今天给大家分享下数仓中的模型设计,一个好的数仓项目首先看一下它的架构以及他所用到的模型,它们使用的模型也都是非常巧妙的,好了,我们话不说到直接开始。一、维度建模基本概念 维度模型是数据仓库领域大师Ralph Kimall所倡导,他的《数据仓库工具箱》,是数据仓库工程领域最流行的数仓建模经典。维度建模以分原创 2021-01-03 00:01:59 · 9043 阅读 · 18 评论 -
kettle生成节假日数据原来还可以这样操作?
前言 最近有好多小伙伴私信我,遇到一个问题在做数仓项目中遇到了瓶颈有的需求需要根据节假日去统计信息。但是由于节假日每年都不一样目前提供的方法没法动态的去获取关于节假日的信息。所以自己去编写一个实现类就完成这个操作。一、需求描述 在Hive中生成一个表用来保存关于日期的工具。目前大公司为了提高效率。创建一个日期表原创 2020-12-22 21:21:23 · 3850 阅读 · 29 评论