1、规范命名的目的
便于数据的统一管理和使用,达到见表识义的目的。易于后期的维护和问题的快速定位追踪。
通过一定规则的命名,将不同的业务线、不同数据源、不同维度、 不同周期的数据分开。
2、业务流程的规范命名
通过不同的编号来区分不同的迭代数据,再组合上下划线“-”和迭代数据输出的落地页名称,直接明了地表示数据的输出和输入位置。
例如:经分迭代三十_落地页名称
3、节点名称规范
当ads层中某个指标只有唯一计算的话,则计算节点和数据集成节点的名称保持一致。
节点依赖规范:
业务中节点之间的依赖使用血缘依赖,在同一个业务流程中节点要有一个统一的虚拟节点开始节点,多个业务流程存在数据依赖关系需要将改节点所依赖的数据数据节点添加为下游依赖节点的父节点
4、数据仓库分层规范
通过不同的名称来区分临时表和业务数据表。
临时表使用tem_当作前缀,后面接上表名。例如:用户表tem_uuser。
业务表的再分层(即离线数仓的构建),主要分为ods(贴源层),dwd(数据明细层),dws(数据整合层),ads(应用层)。
它的命名规范是,数据层名_业务线名_业务库名称_业务表名称_同步周期_同步分区。其中同步周期主要分为pd(按天)、ph(按小时)、pm(按分钟)
每一个分层就是一个作用域,相当于将相应的表存储在对应层的数据库中。
ods层主要存储的就是源数据,不对这些数据进行任何修改,保持原貌。
dwd层是对ods数据清洗过滤后产生的数据,数据量改变不大。
dws是对dwd层数据的整合和升级。
ads层主要用来存储指标数据。
5、开发规范
1、dataworks项目空间规范
通过个人名字的拼音拼写来创建项目空间,例如:caorang。在个人文件夹下,再根据自身需求来创建子文件夹。
创建迭代ddl文件夹用来保存表ddl语句。
2、代码和sql规范。代码和sql语句要结构清晰,尽量满足易读性,不好理解的地方要添加注释。例如,sql语句的子查询等。