![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
数仓
CarloPan
这个作者很懒,什么都没留下…
展开
-
数据仓库分层DWD、DWB、DWS
DW :data warehouse 翻译成数据仓库DW数据分层,由下到上为 DWD,DWB,DWSDWD:data warehouse detail 细节数据层,有的也称为 ODS层,是业务层与数据仓库的隔离层DWB:data warehouse base 基础数据层,存储的是客观数据,一般用作中间层,可以认为是大量指标的数据层。DWS:data warehouse service 服务数据层,基于DWB上的基础数据,整合汇总成分析某一个主题域的服务数据,一般是宽表。零、数据加载层:ETL(Ex转载 2020-12-20 14:20:57 · 28562 阅读 · 4 评论 -
漫谈数据仓库之拉链表(原理、设计以及在Hive中的实现)
本文将会谈一谈在数据仓库中拉链表相关的内容,包括它的原理、设计、以及在我们大数据场景下的实现方式。全文由下面几个部分组成:先分享一下拉链表的用途、什么是拉链表。通过一些小的使用场景来对拉链表做近一步的阐释,以及拉链表和常用的切片表的区别。举一个具体的应用场景,来设计并实现一份拉链表,最后并通过一些例子说明如何使用我们设计的这张表(因为现在Hive的大规模使用,我们会以Hive场景下的设计为例)。分析一下拉链表的优缺点,并对前面的提到的一些内容进行补充说明,比如说拉链表和流水表的区别。0x01 什转载 2020-12-20 11:47:10 · 363 阅读 · 1 评论 -
数据仓库概念
数仓是一个面向主题的、集成的、稳定的、时变的,存储历史数据的仓库。面向主题的:数仓中的数据按照主题进行存储,每个主题都是决策层分析的一个角度;集成的:不同来源的数据会统一整合后存入数仓中;稳定的:数据一旦进入仓库后不会轻易发生改变,就算数据本身需要变化也轻易不会改动原数据,会根据分析需求考虑数据的更新策略;时变的:随着时间的推移,长时间不更新的数据会逐渐失去时效性,失去时效性的数据一般会被导出到外部压缩存储。目前常用的策略是"7年13个月",即保存维度信息的拉链表不保存七年前的数据,保存流水信息的事转载 2020-12-20 10:50:03 · 684 阅读 · 1 评论 -
数据指标体系搭建实践
为什么要构建数据指标体系?因为我们希望时间能花在解决问题而不是寻找问题上。前言我们所需要的并不是数据,而是数据背后映射的洞察。在业务发展过程中,会产生大量的数据,单看数据是没有价值的,只有和业务相结合转化为信息,再经过处理才能体现其价值。对于业务数据而言,通常分为两项:其一是维度,其二是度量,或者说是指标,这两项构成了我们数据分析的基础。对于结构化数据,我们可以理解为一个多维立方体(cube),里面存在着维度和度量。当然,不仅仅是三维,可以有多个维度。这里拿三维立方.转载 2020-12-11 13:40:59 · 923 阅读 · 2 评论