大数据建模篇--维度建模

维度建模法
维度建模法: 就是按照事实表和维度表来构建数仓

一般在数仓DWD层进行建模.

有星型模型,雪花模型,星座模型.

星形模型:事实表可以关联多个维度表,维度表之间没有关系
雪花模型:事实表关联维度表,然后维度再关联维度表,维度表间有关系
星座模型:多个事实表关联相同的维度表

典型代表:星型模型

好处:

星型模型的设计方式主要带来的好处是能够提升查询效率,因为生成的事实表已经经过预处理,主要的数据都在事实表里面,所以只要扫描事实表就能够进行大量的查询,而不必进行大量的join,其次维表数据一般比较少,在join可直接放入内存进行join以提升效率,除此之外,星型模型的事实表可读性比较好,不用关联多个表就能获取大部分核心信息设计维护相对比较简单。通过大量的冗余来减少表查询的次数从而提升查询效率,星型模型对OLAP的分析引擎支持比较友好,这一点在Kylin中比较能体现。

维度建模步骤:
1.选择需要进行分析决策的业务过程.

业务过程可以是单个业务事件,比如交易的支付、退款等;也可以是某个事件的状态,比如当前的账户余额等;还可以是一系列相关业务事件组成的业务流程,具体需要看我们分析的是某些事件发生情况,还是当前状态,或是事件流转效率。

2.选择粒度

在事件分析中,我们需要预判所有分析需求细分的程度,从而决定选择的粒度,粒度是维度的一个组合。

3.确定维度

选择好粒度之后,就需要基于粒度设计维表,包括维度属性,用于分析时进行分组和筛选。

4.确定事实

确定分析需要衡量的指标。

阿⾥巴巴⼤数据之路-⼤数据领域建模综述 阿⾥巴巴⼤数据之道-⼤数据领域建模综述 为什么要数据建模? Linux 的创始⼈ Torvalds 有⼀段关于"什么才是优秀程序员"的话:"烂程序员关⼼的是代码,好程序员关⼼的 是数据 结构和它们之间的关系。" 数据建模的好处 性能 :良好的数据模型能帮助我们快速查询所需要的数据,减少 数据的 110 吞吐。 成本 : 良好的数据模型能极⼤地减少不必要的数据冗余,也能实 现计算结果复⽤,极⼤地降低⼤数据系统中的存储和计算成本。 效率 :良好的数据模型能极⼤地改善⽤户使⽤数据的体验,提⾼ 使⽤数据的效率。 质量 : 良好的数据模型能改善数据统计⼝径的不⼀致性,减少数 据计算错误的可能性。 OLTP 和 OLAP 建模区别 OLTP 主要数据操作是随机读写 主要采⽤满⾜ 3NF 的实体关系模型存储数据 在事务处理中解决数据的冗余和⼀ 致性问题 OLAP 主要数据操作是批量读写 事务处理中 的⼀致性不是 OLAP 所关注的 关注数据的整合,以及在⼀次性 的复杂⼤数据查询和处理中的性能 建模⽅法论 ER模型 简述 数据仓库之⽗ Bill lnmon 提出的建模⽅法是从全企业的⾼度设计⼀ 个 3NF 模型,⽤实体关系( Entity Relationship, ER)模型 描述企业业 务,在范式理论上符合 3NF。数据仓库中的 3NF 与 OLTP 系统中的 3NF 的区别在于,它是站在企业⾓度⾯向主题 的抽象,⽽不是针对某个具体 业务流程的实体对象关系的抽象。 特点 需要全⾯了解企业业务和数据。 实施周期⾮常长。 对建模⼈员的能⼒要求⾮常⾼。 建模步骤 ⾼层模型 ⼀个⾼度抽象的模型,描述主要的主题以及主题间的 关系,⽤于描述企业的业务总体概况。 中层模型 在⾼层模型的基础上,细化主题的数据项。 物理模型(也叫底层模型) 在中层模型的基础上,考虑物理存 储,同时基于性能和平台特点进⾏物理属性的设计,也可能做⼀ 些表的合并、分区的设计 等。 维度模型 简述 维度模型是数据仓库领域的 Ralph Kimball ⼤师所倡导的,他的 The Data 阳rehouse 岛olkit-The Complete Guide to Dimensional Modeling 是 数据仓库⼯程领域最流⾏的数据仓库建模的经典。 特点 从分析决策的需求出发构建模型,为分析需求服务 具有较好的⼤规模复 杂查询的响应性能 其典型的代表是星形模型,以及在⼀些特殊场景下 使⽤的雪花模型 模型分类 雪花模型 星型模型 星座模型 建模步骤 选择需要进⾏分析决策的业务过程 业务过程可以是单个业务事 件,⽐如交易的⽀付、退款等;也可以是某个事件的状态,⽐如 当前的账户余额等;还可以是⼀ 系列相关业务事件组成的业务流 程,具体需要看我们分析的是某些事件发⽣情况,还是当前状态, 或是事件流转效率。 选择粒度 在事件分析中,我们要预判所有分析需要细分的程度,从⽽决定选择的粒度。粒度是维度的⼀个组合。 识别维表 选择好粒度之后,就需要基于此粒度设计维表,包括 维度属性,⽤于分析时进⾏分组和筛选。 选择事实 确定分析需要衡量的指标。 Data Vault 模型 简述 Data Vault 是 Dan Linstedt 发起创建的⼀种模型,它是 ER 模型的衍 ⽣,其设计的出发点也是为了实现数据的整合,但不能直 接⽤于数据分 析决策。 特点 可审计的基础数据层 数据的历史 性、可追溯性和原⼦ ⽽不要求对数据进⾏过度的⼀致性处理和整合 基于主题概念将企业数据进⾏结构化组织 组成部分 Hub 是企业的核⼼业务实体,由实体 key、数据仓库序列代理 键、装载时间、数据来源组成。 Link 代表 Hub 之间的关系。这⾥与 ER 模型最⼤的区别是将关 系作为⼀个独⽴的单元抽象,可以提升模型的扩展性。它可以直 接描述 1 : 1 、 l :n 和 n:n 的关系,⽽不需要做任何变更。它由 Hub 的代理键、装载时间、数据来源组成。 Satellite 是 Hub 的详细描述内容, ⼀个 Hub 可以有多个 Satellite。 它由 Hub 的代理键、装载时间、来源类型、详细的 Hub 描述 信 息组成。 模型实例 Anchor 模型 简介 Anchor 对 Data Vault 模型做了进⼀步规范化处理, Lars. Ri:innback 的初衷是设计⼀个⾼度可扩展的模型,其核⼼思想是所有 的扩展只是添 加⽽不是修改,因此将模型规范到 6NF,基本变成了 k-v 结构化模型。 组成部分 Anchors 类似于 Data Vault 的 Hub ,代表业务实体,且只有主键。 Attributes 功能类似于 Data Vault 的 Satellite
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值