关于数仓建模的理解

是时候分享一下数据仓库的精髓:维度建模。

关于数据仓库相关的内容,我们之前分享过《数据仓库基础概述》,时间比较久远,是去年写的文章了。今天和大家分享一下数据仓库中的维度建模,这是数仓的经典内容。

一、什么是维度建模

维度建模是数据仓库领域的大师之一Ralph Kimball所倡导,他参与所著的《The DataWarehouse Toolkit-The Complete Guide to Dimensona Modeling》,中文名《数据仓库工具箱》,是数据仓库工程领域最流行的数仓建模经典著作。建议有时间的朋友可以读一读。

维度建模以分析决策的需求出发构建模型,构建的数据模型为分析需求(也就是我们通常所说的数据分析)服务。它重点解决如何更快速完成分析需求,同时还有较好的大规模复杂查询的响应性能。

因此,说白了,所谓的维度建模就是一种组织数据仓库的形式、模型,用这种方式组织搭建的数据仓库,对快速支持数据分析有着巨大的帮助。目前也是比较主流的数仓模型了。

二、维度建模基础知识

下面介绍一下关于维度建模的一些基础知识,主要包括事实表、维度表、切片、钻取等。

(1)事实与事实表(Fact Table)

事实表是指其中保存了大量业务度量数据的表,是数仓最核心的表。

事实表中的度量值一般称为事实。通常,最有用的事实就是数字类型的事实和可加类型的事实。事实表的粒度,决定了数据仓库中数据的详细程度。

下图为例。中间的表:服装销售明细表,就是一张事实表。其中的销售金额、成本、利润,都是事实,也是我们需要分析的目标数据。

一般事实表中只存放数字或一些flag用来统计,如:销售金额、成本等。另外,通常事实表中的数据不允许修改,新的数据只是简单地添加到事实表中。

事实表特点:数据量庞大、列数少、经常变化。这个比较好理解,因为实事表是一张业务表嘛,业务肯定是不断有新的数据加进来的。

(2)维度与维度表(Dimension Table)

维度表是用户来分析数据的窗口,比如时间、地区、用户等。

维度表中包含事实表中记录的特性,有些特性提供描述性信息,有些特性指定如何汇总事实数据表数据,以便为分析者提供有用的信息。

例如上图,包括了五张维度表:时间维表、产品维表、地域维表、用户维表、支付维表。每一张维度表对应现实世界中的一个对象或概念。

每一张维度表利用维度关键字(图中标红字段)通过事实表中的外键约束事实表的中某一行。

维度表等特点:很多描述性的列,行数较少,内容较固定。这个也好理解,比如地域,省市区县这些内容十几年都不会有啥变化。

(3)粒度

粒度是指数据仓库的数据单位中,保存数据的细化程度的级别。简单点来看,在实事表中一条记录所表达的业务细节,就是粒度。

通常,为了便捷的下钻分析,我们都会使用到最小粒度。比如订单表中,最小粒度就是一条订单的记录。使用最小粒度的优点:

  • 可以频繁的ETL操作
  • 很多数据挖掘需要最小粒度数据
  • 方便向下钻取

当然,使用最小粒度也有缺点:

  • 存储和维护代价较高
  • 需要进一步构建汇总事实表来支持汇总数据查询

(4)切片、切块与旋转

切片与切块主要是用来进行数据分析的。我们以下面的三维(产品、年度、地区)为例。

  • 切片:从多维数组中选定一个二维子集,切出一个“平面” 。比如选中上图的2011年,这就是一个切片。
  • 切块:从多维数组中选定一个三维子集,切出一个“立方体” 。比如上图中,年度选择了2011、2012,然后看所有的数据内容,这就是一个切块。
  • 旋转:改变一个报告(页面)显示的维方向

(5)钻取

根据维层次,改变数据分析的粒度,就是钻取分析,主要包括上钻(也叫上卷)和下钻。其实Excel中的数据透视就是各种上卷和下钻。

  • 下钻:从汇总数据深入到细节数据进行观察或增加新维
  • 上钻(上卷):从某一维上将低层次的细节数据概括到高层次的汇总数据或减少维数
  • 钻透:直接下钻到最明细的数据。

三、维度建模的三种模型

上面介绍了关于维度建模的一些基础知识,下面聊一聊维度建模的几种具体模型:星型模型、雪花模型、星座模型。

(1)星型模型

所谓星型模型,具体表现是:事实被维度所包围,且维度没有被新的表连接。如下图。

每个维表都有一个维作为主键,所有这些维的主键组合成事实表的主键。

可以看出,星型模型是比较单纯的模型,像星星一样触角没有延伸了。

(2)雪花模型

所谓的雪花模型,是有一个或多个维表没有直接连接到事实表上,而是通过其他维表连接到事实表上,就像雪花一样。如下图:

雪花模型去除了数据冗余,更贴近与业务。尽可能降低数据存储量以及联合较小的维表来改善查询性能。

为啥这么说呢?主要是和星型模型对比而言的。看下面的示例图。如果是星型模型,则需要在【product】表中的【category】把所有的信息都列出来,而雪花模型可以在【product】维度表中继续增加关联即可。

但是可以想象到,雪花模型分析数据时,操作比较复杂。毕竟需要关联的内容越来越多。但数据的存储量下来了,因为冗余信息进行了提炼嘛。

(3)星座模型

无论是星型模型还是雪花模型,都是单事实表的情况。但通常来讲,实践当中大部分情况都是多事实表的。这时就是需要星座模型了。

所谓星座模型,是多个事实表共享维度表, 因而可以视为星型模型的集合,故亦称星座模型(星系模型)。如下图:

星座模型是数据仓库最常使用的模型。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
数仓建模是为了支持数据仓库的设计和构建,从而实现对数据的有效管理和分析。以下是数仓建模的一般实施细则: 1. 需求收集和分析:与相关的业务部门和利益相关者合作,收集数据仓库的需求,并进行详细的需求分析。了解业务流程、数据来源和数据需求,确保数仓模型能够满足业务需求。 2. 数据源分析:对数据源进行详细的分析,了解数据的结构、关系和含义。对于每个数据源,确定其与其他数据源的关联关系和集成方式。 3. 建模方法选择:根据需求和数据源分析的结果,选择合适的建模方法。常见的建模方法包括维度建模(如星型模型、雪花模型)和规范化建模(如第三范式)等。 4. 实体识别和关系定义:根据业务需求和数据源分析,确定数仓中的实体(如产品、客户、订单等),并定义它们之间的关系。这可以使用实体关系图、实体属性列表等方式进行描述。 5. 维度建模:对事实表和维度表进行设计。事实表包含业务度量(如销售金额、数量等)和外键(与维度表关联),而维度表包含维度属性(如时间、地理位置、产品等)。这可以使用维度模型设计工具(如星型模型工具)进行建模。 6. 规范化建模:根据第三范式原则,将数据分解为多个规范化表。每个表代表一个实体或关系,具有唯一标识符和属性。这可以使用实体关系图和关系模式进行描述。 7. 数据粒度定义:定义事实表和维度表的数据粒度,即数据的最小可分析单元。这有助于确定数据聚合和查询的粒度,并支持不同层级的分析。 8. 层次结构设计:对维度表中的属性进行层次结构的设计,以支持分层分析。例如,时间维度可以按照年、季度、月份等进行层次划分。 9. 元数据管理:对数仓中的各个表、字段和关系进行元数据管理,以支持数据的理解、发现和文档化。这可以使用元数据管理工具或元数据仓库来实现。 10. 数据仓库架构设计:根据具体情况,设计数据仓库的架构,包括物理架构(如服务器、存储等)、ETL流程和工作流程等。确保数据仓库的可扩展性、性能和可靠性。 11. 模型验证和优化:对建立的数据仓库模型进行验证和优化,包括合理性检查、性能测试和数据一致性验证等。根据验证结果进行必要的调整和改进。 12. 实施和部署:根据设计和验证的结果,实施数据仓库模型,并将其部署到生产环境中。确保数据的准确性、完整性和安全性。 以上是数仓建模的一般实施细则,具体的实施过程可能会因组织和项目的需求而有所不同。在实施过程中,需要与相关的业务部门和技术团队密切合作,确保数仓建模能够满足业务需求,并具备良好的性能和可扩展性。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值