数仓建设流程


注:本文转至 如何搭建一个数据仓库,仅用于个人学习,侵权删。

一、数仓概览

  • 整体建设
    在这里插入图片描述
  • 建设过程
    在这里插入图片描述
    数仓建模的过程分为业务建模、领域建模、逻辑建模和物理建模,但是这 些步骤比较抽象。为了便于落地,我根据自己的经验,总结出上面的七个步骤:梳理业务流程垂直切分(划分主题域)指标体系梳理表实体关系调研维度梳理数仓分层以及物理模型建立。每个步骤不说理论,直接放工具、模板和案例。

二、流程详解

1.梳理业务流程

  • ① 找到核心业务流程,找到谁,在什么环节,做什么关键动作,得到什么结果。如图:
    在这里插入图片描述

  • ②梳理每个业务节点的客户及关注重点,找到数据在哪。

在这里插入图片描述

2.垂直切分,划分主题域

  • ①数仓的建设方式: 自下而上自顶而下。自下而上,简单快捷,快速交活。要全面支撑,就顶层规划,分步实施,交活稍微慢点。
    在这里插入图片描述
  • ② 同时按照业务领域划分主题域。主题域的划分方法有:按业务流划分(推荐)、按需求分、按职责分、按产品功能分等。
    在这里插入图片描述

3.梳理指标体系

  • ① 指标的意义在于统一语言,统一口径。所以指标的定义必须有严格的标准。否则如无根之水。
  • ② 指标可分为原子指标派生指标衍生指标,其含义及命名规则举例如下:
    在这里插入图片描述

在这里插入图片描述

  • 依照指标体系建设标准,开始梳理指标体系。整个体系同样要以业务为核心进行梳理。同时梳理每个业务过程所需的维度。维度就是你观察这个业务的角度,指标就是衡量这个业务结果 好坏的量化结果。
    在这里插入图片描述
  • ④ 请注意,此时不能被现有数据局限。如果分析出这个业务过程应该有这个指标,但是没有数据,请标注出来,提出收集数据的需求。

4.表实体关系调研

  • ① 每个业务动作都会有数据产生。我们将能够获取到的数据,提取实体,绘制ER图,便于之后的维度建模。
    在这里插入图片描述

  • ② 同样以业务过程为起点向下梳理,此时的核心是业务表。把每张表中涉及的维度、指标都整理出来。
    在这里插入图片描述

5.维度梳理

  • 维度标准化是将各个业务系统中相同的维度进行统一的过程。其字段名称、代码、名字都可能不一样,我们需要完全掌握,并标准化。

在这里插入图片描述

  • 维度的标准尽可能参照国家标准、行业标准。例如地区可以参照国家行政区域代码。另外,有些维度存在层级,如区域的省、市、县。绝大多数业务系统中的级联就是多层级维度

4.数仓分层

  • 数据仓库一般分为4层,名字可能会不一样,但是其目的和建设方法基本一致:

在这里插入图片描述

  • 每一层采用的建模方法都不一样,其核心是逐层解耦,减少重复计算,降低烟囱式开发。越到底层,越接近业务发生的记录,越到上层,越接近业务目标。

  • 依托数仓分层的设计理论,根据实际业务场景,我们就可以梳理出整体的数据流向图。这张图会很清晰的告诉所有人,数据从那来,到哪里去,最终提供什么样的服务。

在这里插入图片描述

7.物理模型建立

  • 此时才真正进入纯代码阶段。数仓、ETL工具选型;ETL流程开发;cube的建立;任务调度,设定更新方式、更新频率;每日查看日志、监控etl执行情况等等。

在这里插入图片描述

三、需要注意

1、数仓建设必须从业务中来,到业务中去;

2、数仓分层的目的是业务解耦;

3、无论哪种建模方式,其核心是业务实体;

4、按领域建设能快速交活,后遗症将会在2年之后爆发,且难以解决;

5、数仓建设应该把75%的时间投入到设计阶段,如果不是,那你就惨了;

6、数仓本身也可以迭代。

7、传统数仓并没有一种叫做“宽表模型”的模型,大数据时代新诞生的名词,因为很多大数据组件join代价极高。实际上是范式退化。

五、数据仓库工具箱

《数据仓库工具箱——维度建模指南》中,第二章总结了 维度设计的四个主要过程:

1.选择业务过程

  • 业务过程是公司完成的操作型的活动,例如,获取订单,处理保险索赔、学生课程注册等等。

2.声明粒度

  • 粒度用于确认某一事实事实表中的一行表示什么。粒度声明是设计必须履行的合同。每个候选维度或事实必须与定义的粒度保持一致。在同一个事实表中不要混入多种不同的粒度。

3.确认维度

  • 维度提供围绕某一业务过程事件所涉及的“谁、什么、何处、何时、为什么、如何?”等等背景。

4.确认事实

  • 事实涉及来自业务过程时间的度量,基本上都是以数值量表示的。
©️2020 CSDN 皮肤主题: 1024 设计师:上身试试 返回首页