获取原文
简短介绍
大家好,了解了Hue、hive、sqoop、kylin、shell等等一系列工具知识之后,是不是对于大数据的开发有了一定的认知了呢?那么今天分享下常规数仓开发规范。都是比较通用的,无论在哪个公司都会有类似的一套规范。
01-数仓开发常规-规范
-
1、规范目的
一般数仓开发规范,都是为了能够很好的规范集群中数据库的内容而制定的。在数仓中往往存在大量的表和字段。为了使数据开发者通过表名一眼就能识别出表是做什么用的,并且里面存放的是什么类型的数据,从而制定的规范。(^_^ 是不是很神奇呢?你也可以的)
-
2、数据分层设计规范
2.1、大数据中数据分层,通常是集群中创建单独的数据库来实现的。我们数仓通常会分为四层:原始数据层、清洗层、模型层、应用层。当然还有一些带有开发测试属性的层,例如:开发层、公共层、临时层。
数据库命名说明(仅供参考和学习) |
|||
层次描述 |
层次简写 |
数据库名 |
举例说明 |
基础数据层 |
STG |
STG |
统一选用parquet文件格式做存储 |
清洗整合层 |
ODS |
ODS |
统一选用parquet文件格式做存储 对数据进行整合、码表进行规范、空值进行处理 |
数据仓库层 |
DW |
DW |
统一选用parquet文件格式做存储 最好分区(默认15天) |
数据应用层 |
DM |
DM |
统一选用parquet文件格式做存储 最好分区(默认15天) |
数据公共层 |
PUB |
PUB |
统一选用parquet文件格式做存储 公共数据库(用存储维度相关信息便于权限管理) |
清洗临时层 |
TMP |
TMP |
统一选用parquet文件格式做存储 调度中间临时库,用做作业临时表存储 |
开发测试层 |
DEV |
DEV |
统一选用parquet文件格式做存储 开发测试临时库 |
注意: STG 创建表默认 业务类型_来源库名_表名_(增量:inc) 字段默认为string 类型 ODS 创建表默认ODS_模型表名_(增量:inc ) 字段严格按照模型字段类型 DW 创建表默认DW_主题_业务内容 DM 创建表默认DM_主题_业务内容 TMP 创建表默认目标表_(编号00-99) RPT 创建表默认RPT_部门简称(公有-pub)_业务内容_(日期表-ds/ws/ms/qs/ys) |
2.2、数据