离线数仓建设规范

最新推荐文章于 2024-03-09 17:10:02 发布

发条橙1226

最新推荐文章于 2024-03-09 17:10:02 发布

阅读量403

点赞数

分类专栏：数据仓库文章标签： big data sql 数据仓库代码规范

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_45054784/article/details/120418973

版权

数据仓库专栏收录该内容

2 篇文章 0 订阅

订阅专栏

1、规范命名的目的

便于数据的统一管理和使用，达到见表识义的目的。易于后期的维护和问题的快速定位追踪。

通过一定规则的命名，将不同的业务线、不同数据源、不同维度、不同周期的数据分开。

2、业务流程的规范命名

通过不同的编号来区分不同的迭代数据，再组合上下划线“-”和迭代数据输出的落地页名称，直接明了地表示数据的输出和输入位置。

例如：经分迭代三十_落地页名称

3、节点名称规范

当ads层中某个指标只有唯一计算的话，则计算节点和数据集成节点的名称保持一致。

节点依赖规范：

业务中节点之间的依赖使用血缘依赖，在同一个业务流程中节点要有一个统一的虚拟节点开始节点，多个业务流程存在数据依赖关系需要将改节点所依赖的数据数据节点添加为下游依赖节点的父节点

4、数据仓库分层规范

通过不同的名称来区分临时表和业务数据表。

临时表使用tem_当作前缀，后面接上表名。例如：用户表tem_uuser。

业务表的再分层（即离线数仓的构建），主要分为ods(贴源层)，dwd（数据明细层），dws（数据整合层），ads（应用层）。

它的命名规范是，数据层名_业务线名_业务库名称_业务表名称_同步周期_同步分区。其中同步周期主要分为pd(按天)、ph(按小时)、pm(按分钟)

每一个分层就是一个作用域，相当于将相应的表存储在对应层的数据库中。

ods层主要存储的就是源数据，不对这些数据进行任何修改，保持原貌。

dwd层是对ods数据清洗过滤后产生的数据，数据量改变不大。

dws是对dwd层数据的整合和升级。

ads层主要用来存储指标数据。

5、开发规范

1、dataworks项目空间规范

通过个人名字的拼音拼写来创建项目空间，例如：caorang。在个人文件夹下，再根据自身需求来创建子文件夹。

创建迭代ddl文件夹用来保存表ddl语句。

2、代码和sql规范。代码和sql语句要结构清晰，尽量满足易读性，不好理解的地方要添加注释。例如，sql语句的子查询等。

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
离线数仓建设规范

1、规范命名的目的便于数据的统一管理和使用，达到见表识义的目的。易于后期的维护和问题的快速定位追踪。通过一定规则的命名，将不同的业务线、不同数据源、不同维度、不同周期的数据分开。2、业务流程的规范命名通过不同的编号来区分不同的迭代数据，再组合上下划线“-”和迭代数据输出的落地页名称，直接明了地表示数据的输出和输入位置。例如：经分迭代三十_落地页名称3、节点名称规范当ads层中某个指标只有唯一计算的话，则计算节点和数据集成节点的名称保持一致。节点依赖规范：业务中节点之间的
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。