【读书笔记】《大数据之路》——维度设计总结(1)

本文深入探讨了维度建模的核心概念,包括维度、事实和层次结构。介绍了如何通过选择和设计维度来确保唯一性,并讨论了规范化和反规范化在数据存储和查询性能上的权衡。此外,还阐述了一致性维度和交叉探查在数据分析中的应用,强调了数据一致性和多数据域分析的重要性。
摘要由CSDN通过智能技术生成

目录

一、维度概念

二、维度设计方法

三、维度的层次结构

四、规范化和反规范化

五、一致性维度和交叉探查

一、维度概念

        在维度建模中,将度量称为“事实”,将环境描述为“维度”,维度是用于分析事实所需要的多样环境。维度所包含的表示维度的列,称为维度属性

        维度使用主键标识其唯一性。

  • 代理键:不具有业务含义(一般用于处理缓慢变化维)
  • 自然键:有业务含义(如商品ID)

二、维度设计方法

  1. 选择维度和新建维度(保证维度唯一性)
  2. 确定主维表(ods表)
  3. 确定相关维表(确定和主维表有联系的表生成维度属性)
  4. 确定维度属性 
  • 阶段一:从主维表中选择维度属性或生成新的维度属性
  • 阶段二:从相关维表中选择维度属性或生成新的维度属性

确定属性维度的关键:

  • 生成丰富的维度属性
  • 属性应当是有意义的文字性描述(编码用于关联,名称是报表标签)
  • 区分数值性属性和事实(用于约束和分组的字段是维度属性,参与度量计算的是事实)
  • 沉淀出通用的维度属性(表关联/字段解析/字段加工【拼接/判断】)

三、维度的层次结构

        维度中的描述属性以层次方式或一对多的方式相互关联。在创建事实表时,可以按照属性的层次结构向下钻取数据。

 

四、规范化和反规范化

雪花模型:属性层次被实例化成一系列的维度,而不是单一的维度

规范化技术(雪花模型):一个属性只存在于一张表, 删除冗余数据,可以避免数据的不一致性。(对OLTP友好,对OLAP能节约存储,但需要大量关联操作,查询性能差)

反规范化技术:将维度属性层次合并到单个维度中,更适用于统计分析,降低了分析复杂度。(用维表空间换取简明性和查询性能)。

五、一致性维度和交叉探查

交叉探查:将不同数据域某个维度的事实合并在一起进行数据探查(日志域的商品pv和交易域的商品GMV,计算转化率)。

维度一致性的表现形式:

  1. 共享维表
  2. 一致性上卷,一个维度的维度属性是另一个维度的维度属性的子集,两个维度的公共维度属性结构和内容相同。
  3. 交叉属性,两个维度具有部分相同的维度属性。
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

醪糟小丸子

小小帮助,不足挂齿

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值