最新一篇文章搞懂数据仓库：数据仓库规范设计，腾讯T3大牛亲自教你

2401_84150394

于 2024-05-08 10:10:24 发布

阅读量909

点赞数 20

分类专栏：程序员文章标签：数据仓库大数据 spark

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/2401_84150394/article/details/138561341

版权

程序员专栏收录该内容

189 篇文章

订阅专栏

既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，涵盖了95%以上大数据知识点，真正体系化！

由于文件比较多，这里只是将部分目录截图出来，全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频，并且后续会持续更新

需要这份系统化资料的朋友，可以戳这里获取

各层级命名、任务命名、表命名、字段命名、指标命名等

模型规范

建模方法、建模工具、血缘关系、维度退化、一致性维度、元数据管理

开发规范

脚本注释、字段别名、编码规范、脚本格式、数据类型、缩写规范

流程规范

需求流程、工程流程、上线流程、调度流、调度和表生命周期管理

二、设计规范 - 指标

===========

Step1：面向主题域管理

为了提高指标管理的效率，你需要按照业务线、主题域和业务过程三级目录方式管理指标。

Step2：划分原子指标和派生指标

原子指标 + 原子指标 = 派生指标

Step3：进行指标命名规范

需要遵循两个原则：易懂与统一

易懂，就是看到指标的名称，就可以基本判断这个指标归属于哪个业务过程；
统一，就是要确保派生指标和它继承的原子指标命名是一致的。

对于原子指标，标名称适合用“动作 + 度量”的命名方式（比如注册用户数、购买用户数）

对于派生指标，应该严格遵循“时间周期 + 统计粒度 + 修饰词 + 原子指标”的命名方式。（比如30天内黑卡会员购买用户数）

Step4：分级管理

指标确实是多，如果一视同仁去管理其实很难，所以可以按照下面的原则进行等级划分：

一级指标：数据中台直接产出，核心指标（提供给公司高层看的）、原子指标以及跨部门的派生指标。
二级指标：基于中台提供的原子指标，业务部门创建的派生指标。

三、命名规范 - 表命名

============

3.1 常规表

常规表是我们需要固化的表，是正式使用的表，是目前一段时间内需要去维护去完善的表。

规范：分层前缀[dwd|dws|ads|bi]_业务域_主题域_XXX_更新评率|全量/增量。

业务域、主题域我们都可以用词根的方式枚举清楚，不断完善，粒度也是同样的，主要的是时间粒度、日、月、年、周等，使用词根定义好简称。

例如: dwd_xxx_xxx_da

di ：每日增量
da：每日全量
mi：每月增量
ma：每月全量

3.2 中间表

中间表一般出现在Job中，是Job中临时存储的中间数据的表，中间表的作用域只限于当前Job执行过程中，Job一旦执行完成，该中间表的使命就完成了，是可以删除的（按照自己公司的场景自由选择，以前公司会保留几天的中间表数据，用来排查问题）。

规范：mid_table_name_[0~9|dim]

table_name是我们任务中目标表的名字，通常来说一个任务只有一个目标表。这里加上表名，是为了防止自由发挥的时候表名冲突，而末尾大家可以选择自由发挥，起一些有意义的名字，或者简单粗暴，使用数字代替，各有优劣吧，谨慎选择。通常会遇到需要补全维度的表，这里我喜欢使用dim结尾。中间表在创建时，请加上 ,如果要保留历史的中间表，可以加上日期或者时间戳

3.3 临时表

临时表是临时测试的表，是临时使用一次的表，就是暂时保存下数据看看，后续一般不再使用的表，是可以随时删除的表。

规范：tmp_xxx

只要加上tmp开头即可，其他名字随意，注意tmp开头的表不要用来实际使用，只是测试验证而已。

3.4 维度表

维度表是基于底层数据，抽象出来的描述类的表。维度表可以自动从底层表抽象出来，也可以手工来维护。

既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，涵盖了95%以上大数据知识点，真正体系化！

由于文件比较多，这里只是将部分目录截图出来，全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频，并且后续会持续更新

需要这份系统化资料的朋友，可以戳这里获取

基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，涵盖了95%以上大数据知识点，真正体系化！**

由于文件比较多，这里只是将部分目录截图出来，全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频，并且后续会持续更新

需要这份系统化资料的朋友，可以戳这里获取

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。