离线数仓建模理论

本文介绍了离线数仓建模的过程,包括数据调研、数据域划分、业务矩阵构建、ODS、DWD、DIM层的建模细节,以及指标体系的建设。重点讨论了事实表和维度表的处理,如事务性事实表、累积型快照事实表、拉链表和维度整合,旨在减少join操作,提高查询效率。最后提到了数据清洗、ADS和DWS层的构建,以及数据导出、可视化和调度系统的使用。
摘要由CSDN通过智能技术生成

     在开始搭建数仓之前,我们会先进行一个数据调研,其实就是从后端拿到所有的表和对表的一个文档说明, 我们会使用EZDML构建一个表与表之间的关系,大概对表有一个了解之后会去和产品尽力沟通一下需求,看看有那些指标是可以做的,有那些指标是做不了的。

        做完这个以后我们就要去明确数据域,也就是要统计哪些域的指标。一个用户来到一个网站肯定是要做注册登录的,完成后就会浏览一些商品啊,浏览差不多可能就会买点什么东西,可能会领个券啥的,可能会对别人的评论点赞回复啥的,根据用户的习惯我们大概将数据域分为“用户域”,“流量域”,“交易域”,“工具域”,“互动域”

        明确完数据域之后,下一步我们就是该构建业务矩阵了,根据维度表的“用户”,“商品”,“活动”,“优惠券”,“时间”,“地点” 这六大维度,然后看那个域需要就在维度上打勾。

        这个完事后就开始正式建模,建模采用的是自下而上的建模。

       ODS层就是最原始层,它其实就是做了三件事。第一件事保持数据原貌,不做任何修改,主要起到一个备份的作用。第二件事就是创建分区表,防止后续的全表扫描。第三件事是采用压缩减少磁盘空间。

      DWD层 主要处理的是事实表,其实就是具有度量值的,就是可以累加的。像个数、件数、金额,这种表。我们在处理事实表的时候,我们都是要找原子操作࿰

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值