数据仓库
Fang Shuzhi
数据赋能风控
展开
-
【漫谈数据仓库1】数据模型
本文引自 https://blog.csdn.net/zhaodedong/article/details/78647943 gitbook网速较慢,文章太好,忍不住重新整理。0x00 前言翻出来之前零零散散写的数据仓库的内容,重新修正整理成一个系列,此为第一篇《数据模型》。数据仓库包含的内容很多,比如系统架构、建模和方法论。对应到具体工作中的话,它可以包含下面的这些内容:以Hado...转载 2018-10-29 20:20:47 · 647 阅读 · 0 评论 -
【漫谈数据仓库2】维度建模
0x00 前言前一篇已经对常用的几种数据模型做了简单的介绍,本篇主要对其中最常用的维度建模做一个深入的理解。0x01 什么是维度建模维度模型是数据仓库领域另一位大师 Ralph Kimball 所倡导,他的《The DataWarehouse Toolkit-The Complete Guide to Dimensona Modeling,中文名《数据仓库工具箱》,是数据仓库工程领域最流行的...转载 2018-10-29 20:33:53 · 1872 阅读 · 0 评论 -
【漫谈数据仓库3】 拉链表
全文由下面几个部分组成:1、先分享一下拉链表的用途、什么是拉链表。2、举一个具体的应用场景,来设计并实现一份拉链表,最后并通过一些例子说明如何使用我们设计的这张表(因为现在 Hive 的大规模使用,我们会以 Hive 场景下的设计为例)。3、分析一下拉链表的优缺点,并对前面的提到的一些内容进行补充说明,比如说拉链表和流水表的区别。转载 2018-10-29 20:42:48 · 599 阅读 · 0 评论 -
【漫谈数据仓库4】缓慢变化维度(SCD)
本文会分享数据仓库中和缓慢变化维度相关的内容。在看之前建议回顾一下和维度建模相关的知识点为什么会分享这个听起来很奇怪的东西?因为站在的笔者的视角中,只要是做数据仓库的小伙伴们,在工作中基本上都会接触和维度建模相关的内容,而谈到维度建模,就少不了会和维度表打交道。我们要谈的就是维度表相关的知识点。在正式开始之前,先解释一下什么是缓慢变化维度。笔者个人理解,缓慢变化维度其实就是指在维度表中那些会随着时间变化的字段,比如用户基本资料。注:缓慢是一个相对的概念。与缓慢变化的纬度相比,数据增长快速是事实表转载 2018-10-29 20:49:17 · 942 阅读 · 0 评论 -
【漫谈数据仓库5】 如何优雅地设计数据分层
本文主要讲解数据仓库的一个重要环节:如何设计数据分层!其它关于数据仓库的内容可参考之前的文章。本文对数据分层的讨论适合下面一些场景,超过该范围场景 or 数据仓库经验丰富的大神就不必浪费时间看了。数据建设刚起步,大部分的数据经过粗暴的数据接入后就直接对接业务。数据建设发展到一定阶段,发现数据的使用杂乱无章,各种业务都是从原始数据直接计算而得。各种重复计算,严重浪费了计算资源,需要优化性能。转载 2018-10-29 20:54:28 · 793 阅读 · 0 评论