（22）数仓建模

最新推荐文章于 2022-12-14 16:41:26 发布

大数据开发工程师-宋权

最新推荐文章于 2022-12-14 16:41:26 发布

阅读量167

点赞数

分类专栏：离线数仓文章标签：大数据

原文链接：http://www.atguigu.com

版权

离线数仓专栏收录该内容

59 篇文章 8 订阅

订阅专栏

1.ODS层

（1）HDFS用户行为数据

（2）HDFS业务数据

（3）针对HDFS上的用户行为数据和业务数据，我们如何规划处理？

（1）保持数据原貌不做任何修改，起到备份数据的作用。

（2）数据采用压缩，减少磁盘存储空间（例如：原始数据100G，可以压缩到10G左右）

（3）创建分区表，防止后续的全表扫描

2.DWD层

DWD层需构建维度模型，一般采用星型模型，呈现的状态一般为星座模型。

维度建模一般按照以下四个步骤：

选择业务过程→声明粒度→确认维度→确认事实

（1）选择业务过程

在业务系统中，挑选我们感兴趣的业务线，比如下单业务，支付业务，退款业务，物流业务，一条业务线对应一张事实表。

如果是中小公司，尽量把所有业务过程都选择。

如果是大公司（1000多张表），选择和需求相关的业务线。

（2）声明粒度

数据粒度指数据仓库的数据中保存数据的细化程度或综合程度的级别。

声明粒度意味着精确定义事实表中的一行数据表示什么，应该尽可能选择最小粒度，以此来应各种各样的需求。

典型的粒度声明如下：

订单事实表中一行数据表示的是一个订单中的一个商品项。

支付事实表中一行数据表示的是一个支付记录。

（3）确定维度

维度的主要作用是描述业务是事实，主要表示的是“谁，何处，何时”等信息。

确定维度的原则是：后续需求中是否要分析相关维度的指标。例如，需要统计，什么时间下的订单多，哪个地区下的订单多，哪个用户下的订单多。需要确定的维度就包括：时间维度、地区维度、用户维度。

（4）确定事实

此处的“事实”一词，指的是业务中的度量值（次数、个数、件数、金额，可以进行累加），例如订单金额、下单次数等。

在DWD层，以业务过程为建模驱动，基于每个具体业务过程的特点，构建最细粒度的明细层事实表。事实表可做适当的宽表化处理。

事实表和维度表的关联比较灵活，但是为了应对更复杂的业务需求，可以将能关联上的表尽量关联上。如何判断是否能够关联上呢？在业务表关系图中，只要两张表能通过中间表能够关联上，就说明能关联上。

至此，数据仓库的维度建模已经完毕，DWD层是以业务过程为驱动。

DWS层、DWT层和ADS层都是以需求为驱动，和维度建模已经没有关系了。

DWS 和DWT 都是建宽表，按照主题去建表。主题相当于观察问题的角度。对应着维度表。

（理解：维度表相对于事实表是共用的，星型模型与雪花模型的区别在于与星型模型的维度表是一维的，雪花是多维的，星座相对两者的不一样是多个事实表，上图去之前讲的模型图不一样，主要是使用星座模型，多张事实表（事件表），维度表共享）

大数据开发工程师-宋权

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
（22）数仓建模

1.ODS层（1）HDFS用户行为数据（2）HDFS业务数据（3）针对HDFS上的用户行为数据和业务数据，我们如何规划处理？（1）保持数据原貌不做任何修改，起到备份数据的作用。（2）数据采用压缩，减少磁盘存储空间（例如：原始数据100G，可以压缩到10G左右）（3）创建分区表，防止后续的全表扫描2.DWD层DWD层需构建维度模型，一般采用星型模型，呈现的状态一般为星座模型。维度建模一般按照以下四个步骤：选择业务过程→声明粒度→确认维度→确认事实（1）.
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。