数据仓库之开发规范详解

莫叫石榴姐

已于 2022-04-29 16:26:02 修改

阅读量2k

点赞数 6

分类专栏：数据仓库文章标签：大数据数据库

于 2020-07-09 14:33:50 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/godlovedaniel/article/details/107093896

版权

为了避免底层业务变动对上层需求影响过大，屏蔽底层复杂的业务逻辑，尽可能简单、完整的在接口层呈现业务数据，建设高内聚松耦合的数据组织，使数据从业务角度可分割，显得尤为重要。从整个集团业务条线出发，形成数据仓库总体概念框架，并对整个系统所需要的功能模块进行划分，明确各模块技术细节，建设一套完整的开发规范

摘要由CSDN通过智能技术生成

目录

1 分层的目的

2.1 分层规范

2.2 分层调用原则

3.3 存储格式

5 脚本命名规范

5.1 命名规范

5.2 具体实例

6.2 shell脚本

0 引言

为了避免底层业务变动对上层需求影响过大，屏蔽底层复杂的业务逻辑，尽可能简单、完整的在接口层呈现业务数据，建设高内聚松耦合的数据组织，使数据从业务角度可分割，显得尤为重要。从整个集团业务条线出发，形成数据仓库总体概念框架，并对整个系统所需要的功能模块进行划分，明确各模块技术细节，建设一套完整的开发规范。

1 分层的目的

2 分层规范

2.1 分层规范

ODS（原始数据层）：ODS层是数据仓库准备区，为DWD层提供基础原始数据。

DWD（明细数据层）：和ODS粒度一致的明细数据，对数据进行去重，脏数据过滤，空处理，建立数据映射关系，数据脱敏，缺省值补值等操作，主要的职责就是保证数据质量。

DWS（服务数据层）：轻度汇总数据及建宽表(按主题)存放数据，或称为数据汇总层，有的叫DWA层。

ADS（应用数据层）：存放应用类表数据，为各种统计报表提供数据。

2.2 分层调用原则

（1）禁止逆向调用

（2）避免同层调用

（3）优先使用公共层

（4）避免跨层调用

3.表规范

3.1 命名

维表命名形式：dim_描述
事实表命名形式：fact_描述_[AB]
临时表命名形式：tmp_ 正式表名_ [C自定义序号]
宽表命名形式：dws_主题_描述_[AB]
备份表命名形式：正式表名_bak_yyyymmdd

表命名解释：

1）表名使用英文小写字母，单词之间用下划线分开，长度不超过40个字符，命名一般控制在小于等于6级。
2）其中ABC第一位"A"时间粒度：使用"c"代表当前数据，"h"代表小时数据，"d"代表天数据，"w"代表周数据，"m"代表月数据，"q"代表季度数据， "y"代表年数据。
3）其中ABC的第二位"B"表示对象属性，用"t"表示表，用"v"表示视图。
4）其中ABC的第三位"C"自定义序号用于标识多个临时表的跑数顺序。

具体如下图所示：

3.2 注释

注释要结合表的英文名，要求注释简洁明了，体现出表的业务出处、主题和用途。

3.3 存储格式

所谓的存储格式就是在Hive建表的时候指定的将表中的数据按照什么样子的存储方式，如果指定了方式，那么在向表中插入数据的时候，将会使用该方式向HDFS中添加相应的数据类型。在数仓中建表默认用的都是PARQUET存储格式，相关语句如下所示：

STORED AS INPUTFORMAT

‘org.apache.hadoop.hive.ql.io.parquet.MapredParquetInputFormat’

OUTPUTFORMAT

最低0.47元/天解锁文章

莫叫石榴姐

关注

6
点赞
踩
22

收藏

觉得还不错? 一键收藏
0
评论
数据仓库之开发规范详解

为了避免底层业务变动对上层需求影响过大，屏蔽底层复杂的业务逻辑，尽可能简单、完整的在接口层呈现业务数据，建设高内聚松耦合的数据组织，使数据从业务角度可分割，显得尤为重要。从整个集团业务条线出发，形成数据仓库总体概念框架，并对整个系统所需要的功能模块进行划分，明确各模块技术细节，建设一套完整的开发规范
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。