数据仓库设计规范文档

最新推荐文章于 2024-09-26 10:13:49 发布

qq_38369653

最新推荐文章于 2024-09-26 10:13:49 发布

阅读量4.5k

点赞数 3

分类专栏：数据仓库文章标签：数据仓库

本文链接：https://blog.csdn.net/qq_38369653/article/details/108327728

版权

本文档详细阐述了数据仓库的设计规范，包括数仓建设的分层模型、ODS层、DW层（维度层、DWS、DWA、临时层）、DM层的设计规范，以及词根、公共规范、指标命名、任务命名和工作流组织规则，强调了主题域划分、权限设计和数据字典的重要性。规范旨在提升数据仓库的组织效率和数据质量。

摘要由CSDN通过智能技术生成

#数据仓库设计规范文档

版本	更新内容	备注
v1.0	创建文档	2020-08-11
v1.1	新增词根相关	2020-08-31

分层是为了解决 ETL 任务及工作流的组织、数据的流向、读写权限的控制、不同需求的满足等各类问题。
总体来说，数仓划分为操作数据层、数据仓库层和数据集市层三部分

ODS：Operational Data Store，操作数据层，在结构上其与源系统的增量或者全量数据基本保持一致。它相当于一个数据准备区，同时又承担着基础数据的记录以及历史变化。
DW: 数据仓库层细分为DWS和DWA。它的主要作用是完成数据加工与整合、建立一致性的维度、构建可复用的面向分析和统计的明细事实表以及汇总公共粒度的指标。
1. 维度层: 基于维度建模理念思想，建立整个企业的一致性维度
2. DWS (Data Warehouse Service)，明细数据层,以业务过程为建模驱动，基于每个具体业务过程的特点，构建最细粒度的明细层事实表。可以结合企业的数据使用特点，将明细事实表的某些重要维度属性字段做适当的冗余，即宽表化处理
3. DWA (Date Warehouse Aggregation)，汇总数据层。
4. 临时层: 生产明细表和聚合表的时候，不可避免地会产生许多中间结果。所有这些中间结果并不承担对外提供服务的职责——它们对数据仓库的使用者是不可见的。为此单独设计了一个临时层来存放数仓层加工过程中可能产生的各种结果。临时层是在 Hive 上额外开辟的一个数据仓库开发人员专用的库。它承担了数据生产过程中问题数据的跟踪，也是数据存储清理时优先考虑的一块空间
DM：Data Mart，数据集市层。