【读书笔记】《大数据之路》——维度设计总结（1）

醪糟小丸子

已于 2022-08-08 22:46:14 修改

阅读量620

点赞数

分类专栏：大数据文章标签：数据分析大数据维度建模

于 2022-08-07 20:23:50 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/laozaoxiaowanzi/article/details/126215400

版权

大数据专栏收录该内容

9 篇文章 1 订阅

订阅专栏

本文深入探讨了维度建模的核心概念，包括维度、事实和层次结构。介绍了如何通过选择和设计维度来确保唯一性，并讨论了规范化和反规范化在数据存储和查询性能上的权衡。此外，还阐述了一致性维度和交叉探查在数据分析中的应用，强调了数据一致性和多数据域分析的重要性。

摘要由CSDN通过智能技术生成

目录

一、维度概念

二、维度设计方法

三、维度的层次结构

四、规范化和反规范化

五、一致性维度和交叉探查

一、维度概念

在维度建模中，将度量称为“事实”，将环境描述为“维度”，维度是用于分析事实所需要的多样环境。维度所包含的表示维度的列，称为维度属性。

维度使用主键标识其唯一性。

代理键：不具有业务含义（一般用于处理缓慢变化维）
自然键：有业务含义（如商品ID）

二、维度设计方法

选择维度和新建维度（保证维度唯一性）
确定主维表（ods表）
确定相关维表（确定和主维表有联系的表生成维度属性）
确定维度属性

阶段一：从主维表中选择维度属性或生成新的维度属性
阶段二：从相关维表中选择维度属性或生成新的维度属性

确定属性维度的关键：

生成丰富的维度属性
属性应当是有意义的文字性描述（编码用于关联，名称是报表标签）
区分数值性属性和事实（用于约束和分组的字段是维度属性，参与度量计算的是事实）
沉淀出通用的维度属性（表关联/字段解析/字段加工【拼接/判断】）

三、维度的层次结构

维度中的描述属性以层次方式或一对多的方式相互关联。在创建事实表时，可以按照属性的层次结构向下钻取数据。

四、规范化和反规范化

雪花模型：属性层次被实例化成一系列的维度，而不是单一的维度

规范化技术（雪花模型）：一个属性只存在于一张表，删除冗余数据，可以避免数据的不一致性。（对OLTP友好，对OLAP能节约存储，但需要大量关联操作，查询性能差）

反规范化技术：将维度属性层次合并到单个维度中，更适用于统计分析，降低了分析复杂度。（用维表空间换取简明性和查询性能）。

五、一致性维度和交叉探查

交叉探查：将不同数据域某个维度的事实合并在一起进行数据探查（日志域的商品pv和交易域的商品GMV，计算转化率）。

维度一致性的表现形式：

共享维表
一致性上卷，一个维度的维度属性是另一个维度的维度属性的子集，两个维度的公共维度属性结构和内容相同。
交叉属性，两个维度具有部分相同的维度属性。

醪糟小丸子

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
4
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

醪糟小丸子

博客等级

码龄5年

115
原创

887
点赞

1770
收藏

3262
粉丝

关注

私信

热门文章

分类专栏

pytorch 8篇
论文 2篇
非技术贴 6篇
深度学习 10篇
博客 5篇
实验 8篇
大数据 9篇
杂文 1篇
MyBatis 3篇
Linux 22篇
MySQL 5篇
hive 10篇
hadoop 4篇
Scala 3篇
OpenCV 5篇
Java 12篇
zookeeper 1篇
JDBC 1篇

最新评论

关于left join ... is null 的奇怪思路
醪糟小丸子: 好呢谢谢哦这是刚实习的时候写的现在工作快三年了搞懂了😉
关于left join ... is null 的奇怪思路
m0_54755077: 你 baidu 下not exist转化为 left join not null 就明白了，其实写 not exist最好理解，我测试效率和 left join差不多
pytorch安装、环境搭建及在pycharm中的设置
CSDN-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)提升标题与正文的相关性；(2)使用更多的站内链接。
模型评估（训练集、验证集、测试集）
一个喜欢吃草莓味奶糖的女孩: 按道理来说测试集是没有标注的，但是在平常我们做实验的时候，测试集我们其实是知道他的标注的，要不然你怎么来判断模型在测试集上的性能是多少呢
人类基因编辑技术及背后的伦理问题【个人观点，仅供参考】
CSDN-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)提升标题与正文的相关性；(2)使用更多的站内链接。

最新文章

目录

评论 4

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

醪糟小丸子 小小帮助，不足挂齿

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。