数据仓库理论

烤鸭肠

已于 2023-11-18 17:07:47 修改

阅读量353

点赞数 9

文章标签：数据仓库

于 2023-11-18 16:42:48 首次发布

本文链接：https://blog.csdn.net/q944123754/article/details/134480081

版权

概念：数仓（Data Warehouse）是一种思想，数仓是一种规范，数仓是一种解决方案

数据处理方式

数据处理可分为两大类：

1、联机事务处理OLTP（On-Line Transaction processing）

作用：管理事务、保证数据的安全性。

2、联机分析处理OLAP（On-Line Analytical Processing）

作用：分析数据、对以往的数据进行分享

数据建模

概念：指的是对现实世界各类数据的抽象组织，确定数据库管辖的范围、数据的组织形式等直至转化成现实的数据库
数据建模有两类：

ER建模

ER建模是面向应用，遵循三范式，以消除数据冗余为目标的设计技术。

三范式：

1NF：列不可再分
2NF：有主键，所有的列依赖于主键–自增主键–UUID–业务字段；
3NF：有外键，有列依赖非主键的列，就移出去创建从表–主从表使用外键进行关联–一对一，一对多，多对多（减少数据冗余）

优点：规范性较好，冗余小，数据集成和数据一致性方面得到重视。

缺点：需要全面了解企业业务、数据和关系；实施周期非常长，成本昂贵；对建模人员的能力要求也非常高，容易烂尾。

维度建模

概念

维度建模以分析决策的需求构建模型，因此它重点解决用户如何更快速完成分析需求，同时还有较好的大规模复杂查询的响应性能，更直接面向业务。维度建模是面向分析，为了提高查询性能可以增加数据冗余，反规范化的设计技术

三个概念：

事实表：发生在现实世界中的操作型事件，其所产生的可度量数值，存储在事实表中。从最低的粒度级别来看，事实表对应一个度量事件，反之亦然
维度表：每个维度表都包含单一的主键列。维度表的主键可以作为与之关联的任何事实表的外键，当然，维度表行的描述环境应与事实表
度量值：度量值是对一次行为的度量，也就是所谓的事实

优点：技术要求不高，快速上手，敏捷迭代，快速交付；更快速完成分析需求，较好的大规模复杂查询的响应性能

缺点:维度表冗余会较多，视野狭窄

维度建模表分类

事实表

事实表中的每行数据代表一个业务事件，事实表中一条记录所表达的业务细节程度被称为粒度。为了度量业务，需要定义度量值，度量值一般为数值类型。数值可以分为可加、半可加、不可加。维度属性可以存储到事实表中，这种存储到事实表中的维度列被称为退化维度。

可加

半可加

不可加

设计原则：

原则1：尽可能包含所有与业务过程相关的事实
原则2：只选择与业务过程相关的事实
原则3：分解不可加性事实为可加的组件。例如：订单的优惠率是不可加的，分解为订单原价金额和订单优惠金额这两个事实存储在事实表中
原则4：在选择维度和事实之前必须先声明粒度，粒度越细越好。
原则5：在同一个事实表中不能有多种不同粒度的事实

原则6：事实的单位要保持一致，应该采用统一的计量单位
原则7：对事实的null值要处理
原则8：使用退化维度提高事实表的易用性

设计方法：

1、选择业务过程以及确定事实表类型

2、明确了业务过程后，根据具体业务需求来选择与维度建模有关的业务过程。

3、声明粒度

4、确定维度

5、确定事实

6、冗余维度

事实表的分类

事务型事实表

单事务事实表：将相同的事务放在一张事实表中一个事务就有一个事务表。缺点：会有很多张事实表，而且如果两个事务关联的时候，表连接速度慢。

多事务事实表：将多个事务存放在一张表中，可以避免表连接问题，但是对下游使用有理解难度，而且度量中会有很多o值。

周期型快照事实表

固定时间间隔的数据去生产结果：一般情况下，我们查看事务型事实表就可以知道自己的交易情况，但是随着时间的推移，事实型数据越拉越多，就需要周期快照事实表帮我们去统计结果。

周期快照事实表统计结果：需要按照多个维度的组合间隔一段时间定时去生成

快照的粒度：事务型—取决于事务的细节程度；周期型—取决于时间天月季度年

密度：事务型—稀疏，事务发生的时候才会进行记录；周期型—密集，不管是否有事务发生，都会按照间隔进行计算

可加性：事务型—可加型；周期型—半可加型，统计的结果

累积型快照事实表

跟踪业务事实的变化，覆盖过程的整个生命周期：数据仓库中可能需要累积或存储订单从下单开始，到订单商品被打包、运输、签收等各个业务阶段的时间点数据，来跟踪订单生命周期的进展情况。当这个业务过程进行时，是事实表的记录也要不断更新

维度表

维度：数据分析的环境。

维度表的范围很宽：每个属性都可以作为查询条件。

维度的数量一般在一个有限的范围内，但比维度表多。

设计原则：

1、维度属性尽量丰富，为数据使用打下基础。

2、给出详实的，富有意义的文字描述 ID：用于表的关联名称：标签，描述。

3、区分数值型属性和事实；一个数字可能是度量值还可能是属性值。维度属性：常用于查询约束条件或分组统计。事实：用于参与度量的计算。

4、退化维度：简单的维度表放在事实表中，减少表关联，加快查询效率。

5、缓慢变化维；直接覆盖原值：不看历史数据，简单粗暴；增加属性列：需要更改有限次；拉链表：需要在维度行再增加三列–有效日期、截止日期、行标识（可选）

设计方法：

数据仓库的能力直接与维度属性的质量和深度成正比。

分析出维度表，首先设计出主维度表，然后根据需求查看是否需要设计出从维度表。如果维度表属性比较少可以查看是否能够使用维度退化

整合：

垂直整合

多张表–如果主键一致但是每张表属性不同，需要合并表的时候，就用垂直整合

水平整合

多张表–如果主键不同，但是属性相差无几，需要合并表的时候，就用水平整合

拆分：

垂直拆分

将维度表拆分为主表和从表

主维表：存放稳定、产出时间早、热度高的属性

从维表：存放变化较快、产出时间晚、热度低的属性

水平拆分

业务不同，不同产品有自己的独特的维度属性

一张维度表要存储所有的商品信息，通用属性存放到主维表，独有属性存放从维度表。以后如果新增商品，商品的通用信息放主维表，独有属性存放到从维表

维度建模步骤

业务处理过程：维度建模是紧贴业务。我们要分析的指标并不是凭空想象的，而是基于管理层或者产品想要了解的结果，我们要对原始数据进行分析得到对应的结果
声明粒度：选择最小粒度。维度选择越小：数据量越大，支持的业务越多，但是计算量会增多【上卷】维度选择越大：数据量会减少，支持的计算也会减少。我们在进行计算的时候，只能计算当前粒度以及比当前粒度更大的数据
确认维度：维度退化：谁。什么时间，什么地点
确认事实：度量值：个数，件数，金额。同一事实表中的度量必须具有相同的粒度