数仓开发规范

本文档旨在规范数据仓库的开发,包括分层规范、表命名与注释、存储格式、字段处理等,旨在提高数据统一管理和使用效率,确保数据质量。规范涵盖了数仓的各个层面,从ODS到DWS,再到APP层,详细规定了命名规则、存储方式、数据处理和代码编写等,以实现见表识其义,易于维护。
摘要由CSDN通过智能技术生成

前言

1.1 背景

 为了避免底层业务变动对上层需求影响过大,屏蔽底层复杂的业务逻辑,尽可能简单、完整的在接口层呈现业务数据,建设高内聚松耦合的数据组织,使数据从业务角度可分割,显得尤为重要。从整个集团业务条线出发,形成数据仓库总体概念框架,并对整个系统所需要的功能模块进行划分,明确各模块技术细节,建设一套完整的开发规范。

1.2 目的

便于数据的统一管理和使用,达到见表识其义,且易于维护,制定此操作规范,此规范针对本部门开发人员,望共同遵守。

1.3 术语

    ETL:也即是数据抽取、清理、装载,是数据仓库建设的核心一环。
    
    ODS:操作数据存储ODS(Operational Data Store)是数据仓库体系结构中的一个重要部分,ODS具备数据仓库的部分特征和OLTP系统的部分特征,主要存储原始库表同步过来的数据以及接口上报采集过来的数据。

    DW:数据仓库(Data Warehouse), 面向主题的、集成的、相对稳定的、随时间不断变(不同时间)的数据集合。

2 分层规范

统一拉通层:

把DW层的数据做统一的清洗处理。去重、去噪、字典翻译、空值转化,日期格式化等操作。

DWD(明细层):

和ODS粒度一致的明细数据,对数据进行去重,脏数据过滤和砍字段处理,空处理,保证数据质量,简单逻辑通过视图实现,并解决数据的完整度问题。

DWS(服务层):

轻度汇总数据及集市大宽表(按主题)存放数据。

DIM:( 维表层):

通过ods层获取得到。

APP:(应用层):

存放应用类表数据,如标签,各业务部门报表,第三方应用数据,按应用主题存放一般是业务部门,如销售、风控、运营、财务等。

3 表规范

3.1 命名

维表 命名形式:dim_描述
事实表 命名形式:fact_描述_[AB]
临时表 命名形式:tmp_ 正式表名_ [C自定义序号]
桥接表 命名形式:map_主题_描述_[AB]
宽表 命名形式:dws_主题_描述_[AB]
备份表 命名形式:正式表名_bak_yyyymmdd
表命名解释:

1)表名使用英文小写字母,单词之间用下划线分开,长度不超过40个字符,命名一般控制在小于等于6级。

2)其中ABC第一位"A"时间粒度:使用"c"代表当前数据,"h"代表小时数据,"d"代表天数据,"w"代表周数据,"m"代表月数据,"q"代表季度数据, "y"代表年数据。

3)其中ABC的第二位"B"表示对象属性,用"t"表示表,用"v"表示视图。

4)其中ABC的第三位"C"自定义序号用于标识多个临

  • 2
    点赞
  • 34
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值