数据仓库架构简述与设计

一、数据仓库是什么

数据仓库是面向主题的 集成的 相对稳定的 反映历史变化的数据集合;是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。它是单个数据存储,出于分析性报告和决策支持目的而创建。 为需要业务智能的企业,提供指导业务流程改进、监视时间、成本、质量以及控制。

二、数据仓库建设目的

  1. 收集海量数据要用于访问
  2. 需要以各个方面方便地对数据进行切片及切块
  3. 业务人员需要方便的获取数据
  4. 数据分析后将最重要的数据和信息展示给我们
  5. 能够使用信息来支持更多的基于事实的决策制定
  6. 必须能够适应变化以及数据更新

三、数据建模简介

  • 星型模型与OLAP多维数据库

在多维数据库环境中实现的维度模型通常称为联机分析处理(OnLine Analytical ProcessingOLAP)多维数据库。

在关系数据库管理系统中实现的维度简目成为星型模式,因为起结构类似星型结构。

 

  • 事实表(用于度量)

                事实表中美航对应一个度量事件,每行中数据是一个特定级别的细节数据,成为粒度;

                物理世界的每一个度量时间与对应的事实表行具有一对一的关系。

 

  • 维度表(用于描述环境)

                维度表包含与业务过程度量事件有关的文本环境;

                每个维度表由唯一主键定义,用于在与事实表链接操作时作为参照完整性的基础;

                维度属性可作为查询约束、分组、报表表示的主要来源。

其他模型简述https://www.cnblogs.com/muchen/p/5310732.html

四、数据仓库层次结构规范

基本分层结构

                数据仓库层级结构逻辑方面可以分为:ODSOperational Data Store操作型数据存储  EDWEnterprise Data Warehouse企业级数据仓库。

系统的信息模型从存储的内容方面可以分为,ODS层信息模型、DWD数据模型、DIM层维度信息模型、DM信息模型和MDW元数据信息模型。

在各个信息模型中存储的内容如下描述: 

1)   ODS层(对应原模型的ODS层)信息模型:

  • 面向主题的、集成的、可变的、反映当前数据值的和详细的数据的集合,用来满足企业综合的、集成的以及操作型的处理需求”(Bill.Inmon)
  • 从数据来源直接到EDW层的一个中间过度层,由于数据来源的数据格式可能不符合企业业务事务处理的形式,所以先有ODS中间缓冲层,然后出DWD层数据信息模型;
  • ODS在数据仓库中是可选择的一部分,但不是必须的。

 

2DWD层信息模型:DWD层是数据仓库的细节数据层,是对ODS层数据进行沉淀,减少了抽取的复杂性,同时DWD的信息模型组织主要遵循企业业务事务处理的形式,将各个专业数据进行集中。为企业进行经营数据的分析,系统将数据按分析的主题的形式存放,跟STAGE层的粒度一致,属于分析的公共资源。

注:

DW data warehouse 翻译成数据仓库
DW数据分层,由下到上为 DWD,DWB,DWS
DWD
data warehouse detail 细节数据层,是业务层与数据仓库的隔离层
DWBdata warehouse base 基础数据层(MID),轻度汇总聚合层,存储的是客观数据,一般用作中间层,可以认为是大量指标的数据层。
DWSdata warehouse service 服务数据层(DM),数据分析/展示层,基于DWB上的基础数据,整合汇总成分析某一个主题域的服务数据,一般是宽表。

 

3DIM层维度信息模型:这一层比较单纯,也就是现在用到的维度表,举个例子就明白,比如国家代码和国家名、地理位置、中文名、国旗图片等信息就存在DIM层中。

 

4)   DM/DWS层(专题经营分析服务层/展示层)信息模型:为专题经营分析服务,系统将数据按分析的专题组织成多维库表的形式存放,属于分析目标范畴的数据组织与汇总,属于分析的专有资源。其信息主要来源于DWD MID层汇总,反映实时的经营状况,时间维度为天。而历史经营状况的分析,时间维度一般为月,同时也具有季度、年这样的维度。

 

5)  MDW元数据信息模型:描述数据及其环境的数据,即是对数据资源的描述,是信息共享和交换的基础和前提,用于描述数据集的内容、质量、表示方式、空间参考、管理方式以及数据集的其他特征。

一般来说,它有两方面的用途:

1 )元数据能提供基于用户的信息,如记录数据项的业务描述信息的元数据能帮助用户使用数据。

2 )元数据能支持系统对数据的管理和维护

元数据机制主要支持以下五类系统管理功能:

(1)描述哪些数据在数据仓库中;

(2)定义要进入数据仓库中的数据和从数据仓库中产生的数据;

(3)记录根据业务事件发生而随之进行的数据抽取工作时间安排;

(4)记录并检测系统数据一致性的要求和执行情况;

(5)衡量数据质量。

五、各层物理表相关规范

5.1 表名命名规范

  • 小写字母、数字和下划线组成

数据模型规范要求的层次

数据中心物理模型层次名称

物理表命名规范

 

维度数据层

wd_维度

数据集市层(DM)

展示层

dm_业务

细节数据层(DWD)

细节数据层

事务_event

操作型数据存储层(ODS)

操作型数据存储

ods_事务

5.2  表字段命名规范

1)小写字母、数字和下划线组成

2)单词之间用下划线隔开

3)字段名尽量体现字段意义

5.3 字段以及字段数据类型规范

1)表id(主键或外键)都为String类型

2)事件记录表(事实表)一般都有date_keyString)字段来代表事件 天粒度(YYYY-MM-DD)的时间

3)维度表按照date_key进行分区,每个分区记录当天的状态信息。

4)时间类型字段一般后缀为_time,为TIMESTAMP类型。

5)数字类型按照字段意义确定INTDOUBLE类型(不确定的情况下都都用DOUBLE类型)。

6)事实表应带有足够的外键以做关联备用。

 

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值