小白篇(十七):大数据数仓常规-规范

获取原文

 

简短介绍


大家好,了解了Hue、hive、sqoop、kylin、shell等等一系列工具知识之后,是不是对于大数据的开发有了一定的认知了呢?那么今天分享下常规数仓开发规范。都是比较通用的,无论在哪个公司都会有类似的一套规范。

 

01-数仓开发常规-规范

  • 1、规范目的

一般数仓开发规范,都是为了能够很好的规范集群中数据库的内容而制定的。在数仓中往往存在大量的表和字段。为了使数据开发者通过表名一眼就能识别出表是做什么用的,并且里面存放的是什么类型的数据,从而制定的规范。(^_^ 是不是很神奇呢?你也可以的)

 

  • 2、数据分层设计规范

2.1、大数据中数据分层,通常是集群中创建单独的数据库来实现的。我们数仓通常会分为四层:原始数据层、清洗层、模型层、应用层。当然还有一些带有开发测试属性的层,例如:开发层、公共层、临时层。

数据库命名说明(仅供参考和学习)

层次描述

层次简写

数据库名

举例说明

基础数据层

STG

STG

统一选用parquet文件格式做存储

清洗整合层

ODS

ODS

统一选用parquet文件格式做存储 对数据进行整合、码表进行规范、空值进行处理

数据仓库层

DW

DW

统一选用parquet文件格式做存储 最好分区(默认15天)

数据应用层

DM

DM

统一选用parquet文件格式做存储 最好分区(默认15天)

数据公共层

PUB

PUB

统一选用parquet文件格式做存储 公共数据库(用存储维度相关信息便于权限管理)

清洗临时层

TMP

TMP

统一选用parquet文件格式做存储 调度中间临时库,用做作业临时表存储

开发测试层

DEV

DEV

统一选用parquet文件格式做存储 开发测试临时库

注意:

STG  创建表默认 业务类型_来源库名_表名_(增量:inc) 字段默认为string 类型

ODS  创建表默认ODS_模型表名_(增量:inc ) 字段严格按照模型字段类型

DW   创建表默认DW_主题_业务内容

DM   创建表默认DM_主题_业务内容

TMP  创建表默认目标表_(编号00-99)

RPT  创建表默认RPT_部门简称(公有-pub)_业务内容_(日期表-ds/ws/ms/qs/ys)

 

2.2、数据

  • 0
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值