数据仓库简介

不名一文

已于 2023-05-12 18:49:56 修改

阅读量1.2k

点赞数 1

分类专栏：大数据数据仓库文章标签：数据仓库

于 2018-07-09 23:59:18 首次发布

本文链接：https://blog.csdn.net/u012485099/article/details/80906346

版权

大数据同时被 2 个专栏收录

20 篇文章 7 订阅

订阅专栏

数据仓库

2 篇文章 0 订阅

订阅专栏

一图解千愁

1.概念

1.1.数据仓库概念

数据仓库之父比尔·恩门（Bill Inmon）给出数据仓库的定义如下:

数据仓库（Data Warehouse）是一个面向主题的（Subject Oriented）、集成的（Integrated）、相对稳定的（Non-Volatile）、反映历史变化（Time Variant）的数据集合，用于支持管理决策(Decision Making Support)

面向主题：面向抽象或者面向业务。比如仓储，速运、财务等业务域
集成：数据仓库相当于一个数据中心，其数据来自于其它各个oltp系统、文本格式等异构数据源，按照一定的规则将数据进行组合存储
相对稳定：数仓中数据一般按照天的频率从其它异构数据源抽取插入，一般不进行更新或删除操作
反映历史变化：数仓数据存储几年甚至几十年，通过数仓数据能够反应历史的数据变化

1.2事实表

事实表用来存放业务上事实发生的数据，如订单表、发货表，一般由维度和度量组成

1.2.1事务事实表

事务事实表和周期快照事实表、累积快照事实表使用相同的一致性维度，主要区别在于描述业务事实方面。事务事实表记录事实层面的事实，保存的是最原子的数据，也称“原子事实表”。事务事实表中的数据在事务事件发生后产生，数据的粒度通常是每个事务一条记录。一旦事务被提交，事实表数据被插入，数据就不再进行更改，其更新方式为增量更新。

事务事实表的日期维度记录的是事务发生的日期，它记录的事实是事务活动的内容。用户可以通过事务事实表对事务行为进行特别详细的分析。

通过事务事实表，还可以建立聚集事实表，为用户提供高性能的分析。

1.2.2周期快照事实表

周期快照事实表以具有规律性的、可预见的时间间隔来记录事实，时间间隔如每天、每月、每年等等。典型的例子如销售日快照表、库存日快照表等，实际上就是我们说的聚合表，一般在事务事实表基础上进行汇总

1.2.3累积快照事实表

1.3维表

维度表可以看作是看数据的角度，如时间、地域、产品等均为维度

静态维
缓慢变化维(slowly changing dimension)

缓慢变化维可以简写为scn，指维度中的值随时间推移缓慢进行变化，如人员的家庭住址，电话号码等信息

根据业务需求不同对scn有三种处理方式：

TYPE 1：直接更新业务人员只关注最新维度信息，这种情况下直接进行对维度表中的值进行更新
TYPE2：添加维度行当有维度属性发生变化时，生成一条新的维度记录，主键是新分配的代理键，通过自然键可以和原维度记录保持关联。此种情况生成的维表可以成为拉链表
TYPE3：添加属性列维度表中新增一列添加上次记录和本次记录信息

退化维

在维度建模的数据仓库中，有一种维度叫Degenerate Dimension，中文一般翻译为“退化维度”。

这种退化维度一般都是事务的编号，如订单编号、发票编号等。这类编号需要保存到事实表中，但是不需要对应的维度表，所以称为退化维度。

1.4其它基本概念

1.4.1粒度

粒度是指数据仓库的数据单位中保存数据的细化或综合程度的级别。细化程度越高，粒度级就越小；相反，细化程度越低，粒度级就越大。数据的粒度一直是一个设计问题。数据仓库环境中粒度之所以是主要的设计问题，是因为它深深地影响存放在数据仓库中的数据量的大小，同时影响数据仓库所能回答的查询类型。粒度的大小需要数据仓库在设计时在数据量大小与查询的详细程度之间作出权衡。

举例：如时间上按日、周、月汇总销售额，这里的日、周、月指汇总的粒度。

1.4.2度量

在多维数据集中，度量值是一组值，这些值基于多维数据集的事实数据表中的一列，而且通常为数字。此外，度量值是所分析的多维数据集的中心值。即，度量值是最终用户浏览多维数据集时重点查看的数字数据（如销售、毛利、成本）

1.4.3ETL

ETL，Extraction-Transformation-Loading的缩写，即数据抽取（Extract）、转换（Transform）、装载（Load）的过程，它是构建数据仓库的重要环节。

ETL的设计分三部分：数据抽取、数据的清洗转换、数据的加载。在设计ETL的时候我们也是从这三部分出发。数据的抽取是从各个不同的数据源抽取到ODS（OperationalDataStore，操作型数据存储）中——这个过程也可以做一些数据的清洗和转换），在抽取的过程中需要挑选不同的抽取方法，尽可能的提高ETL的运行效率。ETL三个部分中，花费时间最长的是“T”（Transform，清洗、转换）的部分，一般情况下这部分工作量是整个ETL的2/3。数据的加载一般在数据清洗完了之后直接写入DW （DataWarehousing，数据仓库）中去。