![](https://img-blog.csdnimg.cn/20201014180756724.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
数仓
文章平均质量分 92
desmond_retain
这个作者很懒,什么都没留下…
展开
-
深入讲解拉链表,还怕面试官问?
原文链接:深入讲解拉链表,还怕面试官问? 前言 今天给大家分享一个面试中经常会被问到的拉链表,我在上篇文章中提出来一个需求如果不知道的请去→数仓缓慢变化维深层讲解查看,好,废话不多说我们直接开始。提出的问题会在末尾讲解。 一、拉链表介绍(百度百科) 拉链表:维护历史状态,以及最新状态数据的一种表,拉链表根据拉链粒度的不同,实际上相当于快照,只不过做了优化,去除了一部分不变的记录,通过拉链表可以很方便的还原出拉链时点的客户记录 二、拉链表场景 数据仓库的数据模型设计过程中,经常会遇到这样的需求: 表中的部转载 2021-08-26 10:08:05 · 245 阅读 · 0 评论 -
数仓缓慢变化维深度讲解
前言 维度缓慢变化为SCD(Slowly Changing Dimensions)一些维度表的数据不是静态的,而是会随着时间而缓慢地变化(这里的缓慢是相对事实表而言,事实表数据变化的速度比维度表快,如果还不知道什么是事实表和维度表请看→数仓模型设计详细讲解)把处理维度表数据历史变化的问题,称为缓慢变化维问题,简称SCD问题。 举个例子: 例如:用根据用户维度,统计不同出生年份的消费金额占比。(80后、90后、00后)。而期间,用户可能去修改用户数据,例如:将出生日期改成了 1992年。此时,用户维度表就发转载 2021-08-25 14:04:07 · 136 阅读 · 0 评论 -
数据仓库分层架构深度讲解
原文地址:数据仓库分层架构深度讲解 前言 我们在数仓项目的时候往往是需要将它分层的,但是为什么分层你真正的了解过吗,那它分层的好处又是什么呢。好我们今天就针对这个话题进行讲解。 一、为什么要分层 分层的主要原因是在管理数据的时候,能对数据有一个更加清晰的掌控,详细来讲,主要有下面几个原因: 清晰数据结构: 每一个数据分层都有它的作用域,这样我们在使用表的时候能更方便地定位和理解。 方便数据血缘追踪: 简单来说,我们最终给业务呈现的是一个能直接使用业务表,但是它的来源有很多,如果有一张来源表出问题了转载 2021-08-24 11:07:29 · 336 阅读 · 0 评论 -
数仓模型设计详细讲解
原文地址:数仓模型设计详细讲解 前言 今天给大家分享下数仓中的模型设计,一个好的数仓项目首先看一下它的架构以及他所用到的模型,它们使用的模型也都是非常巧妙的,好了,我们话不说到直接开始。 一、维度建模基本概念 维度模型是数据仓库领域大师Ralph Kimall所倡导,他的《数据仓库工具箱》,是数据仓库工程领域最流行的数仓建模经典。维度建模以分析决策的需求出发构建模型,构建的数据模型为分析需求服务,因此它重点解决用户如何更快速完成分析需求,同时还有较好的大规模复杂查询的响应性能。 维度建模是专门应用于分析型转载 2021-08-23 22:13:31 · 128 阅读 · 0 评论