数据仓库原理&实战（理论）

最新推荐文章于 2024-07-24 12:24:03 发布

minyaoleo

最新推荐文章于 2024-07-24 12:24:03 发布

阅读量2.2k

点赞数 2

分类专栏：数据仓库文章标签：数据仓库

本文链接：https://blog.csdn.net/minyaoleo/article/details/121449250

版权

数据仓库专栏收录该内容

3 篇文章 0 订阅

订阅专栏

1. 数据仓库的诞生背景

1.1 数据仓库诞生的原因

* 历史数据积存

* 企业数据分析需要

1.2 历史数据积存

* 历史数据使用频率低，堆积在业务库中，导致性能下降

1.3 企业数据分析需要

* 各个部门自己建立独立的数据抽取系统，导致数据不一致

2. 数据仓库概述

2.1 数据仓库（Data Warehouse, DW）

* 由数据仓库之父比尔·恩门（Bill Inmon）提出

* 数据仓库是一个面向主题的，集成的，非易失的且随时间变化的数据集合

* 主要用于组织积累的历史数据，并使用分析方法（OLAP，数据分析）进行分析整理，进而辅助决策，为管理者，企业系统提供数据支持，构建商业智能

2.2 数据仓库特点

* 面向主题：为数据分析提供服务，根据主题将原始数据集合在一起

* 集成：原始数据来源于不同数据源，要整合成最终数据，需要经过抽取，清洗，转换的过程

* 非易失：保存的数据是一系列历史快照，不允许呗修改，只允许通过工具进行查询，分析

* 时变性：数据仓库会定期接受，集成新的数据，从而反映出数据的最新变化

2.3 数据仓库 VS 数据库

* 数据库面向事物设计，属于OLTP（在线事物处理），主要操作是随机读写；在设计时尽量避免冗余，采用符合范式规范来设计

* 数据仓库是面向主题设计的，属于OLAP（在线分析处理）系统，主要操作是批量读写；关注数据整合，以及分析，处理性能；会有意引入冗余，采用反范式方式设计

	数据库	数据仓库
面向	事务	分析
数据类型	细节，业务	综合，清洗过的数据
数据特点	当前的，最新的	历史的，跨时间维护
目的	日常操作	长期信息需求，决策支持
设计模式	基于ER模型，面向应用	星型/雪花模型，面向主题
操作	读/写	大多为读
数据规模	GB/TB	>= TB

3. 数据仓库的技术实现

3.1 传统数据仓库 VS 大数据数据仓库

1. 传统数据仓库：由关系型数据组成MPP（大规模并行处理）；缺点是：扩展性有限，热点问题

2. 大数据数据仓库：优势：扩展性，避免热点问题；缺点是：SQL支持率（已经不算问题了），事物支持

* 利用大数据天然的扩展性，完成海量数据的存放

* 将SQL转化为大数据计算引擎的任务，完成数据分析

4. MPP&分布式架构技术

4.1 MPP架构

* 传统数仓中常见的技术架构，将单机数据库节点组成集群，提升整体处理性能

* 节点间为非共享架构（Share Nothing），每个节点都有独立的磁盘存储系统和内存系统

* 每个数据节点通过专用网络或者商业通用网络互相连接，彼此协同计算，作为整体提供服务

* 设计上优先考虑C（一致性），其次考虑A（可用性），尽量做好P（分区容错性）

优点：运算方式精细，延迟低，吞吐低

适合中等规模的结构化数据处理

缺点：存储位置不透明，通过Hash确定数据所在的物理节点，查询任务在所有节点均会执行

并行计算时，单节点瓶颈会成为整个系统短板，容错性差

分布式事物的实现导致扩展性降低

4.2 分布式架构

* 大数据常见的技术架构，也成为Hadoop架构/批处理架构

* 各阶段实现场地自治（可以单独运行局部应用），数据在集群中全局透明共享

* 每台节点通过局域网或广域网相连，节点间的通信开销比较大，在运算时致力减少数据移动

* 优先考虑的是P（分区容错性），然后是A（可用性），最后再考虑C（一致性）

4.3 MPP + 分布式架构

* 数据存储采用分布式架构中的公共存储，提高分区容错性

* 上层架构采用MPP，减少运算延迟

5. 常见的数据仓库产品

5.1 传统数据仓库：Oracle RAC，DB2，Teradata，Greenplum

5.2 大数据数据仓库：Hive， Spark SQL，HBase， Impala， HAWQ， TIDB

6. 数据仓库架构设计

6.1 架构图

6.2 ETL流程

* 将数据从来源端经过抽取（extract），交互转换（transform），加载（load）至目的端的过程

* 构建数据仓库的重要一环，用户从数据源抽取所需的数据，经过数据清洗，最终按照预先定义好的数据仓库模型，将数据加载到数据仓库中去

* ETL规则的设计和实施约占整个数据仓库搭建工作量的60%~ 80%

6.2.1 数据抽取（extract）

* 抽取的数据源可以分为结构化数据，非结构化数据，半结构化数据

* 结构化数据一般采用JDBC，数据库日志方式，半结构化数据会监听文件变动

抽取方式：

* 数抽取方式有全量同步，增量同步两种方式

* 全量同步会将全部数据进行抽取，一般用于初始化数据装载

* 增量同步方式会检测数据的变动，抽取发生变动的数据，一般用于数据更新

6.2.2 数据转换（transform）

* 数据转换要经历数据清洗和转换的两个阶段：

-- 数据清洗主要对出现的重复，多义，不完整，违反业务或逻辑规则等问题的数据进行统一的处理

-- 数据转换主要对数据进行标准化处理，进行字段，数据类型，数据定义的转换

* 结构化数据在转换过程中的逻辑比较简单，非结构和半结构化数据的转换比较复杂

6.2.3 数据加载（Loading）

* 将最后处理完的数据导入到对应的目标源中

6.3 数据积存之ODS层

* 数据与原业务数据保持一致，可以增加字段来进行数据管理

* 存储的历史数据是只可读的，提供业务系统查询使用

* 业务系统对历史数据完成修改后，将update_type字段更新为update，追加到ODS中

* 在离线数仓中，业务数据定期通过ETL流程导入到ODS中，导入方式有全量、增量两种方式

-- 首次导入：全量

-- 增量导入：非首次导入，每次只导入新增，修改的数据，建议使用外链接&全覆盖的方式

6.4 数据分析之DW层

6.4.1 数据明细层（DWD）

* 数据明细层对ODS层的数据进行清洗，标准化，维度退化（时间，分类，地域）

* 数据仍然满足3NF模型，为分析运算做准备

6.4.2 数据汇总层（DWS）

* 数据汇总层的数据对数据明细层的数据按照分析主题进行计算汇总，存放便于分析的宽表

* 存储模型并非3NF，而是注重数据聚，复杂查询，处理性能更优的数仓模型，如维度模型

6.4.3 数据应用层（ADS）

* 数据应用层也被成为数据集市

* 存储数据分析结果，为不同业务场景提供接口，减轻数据仓库的负担

-- 数据仓库擅长数据分析，直接开发业务查询接口，会加重其负担

7. 数仓建模

7.1 基本概念

7.1.1 OLTP系统建模方法

* OLTP（在线事务处理）系统中，主要操作是随机读写

* 为保证数据一致性，减少冗余，常使用关系模型

* 在关系模型中，使用三范式规则来减少冗余

7.1.2 OLAP（在线联机分析）

* 主要作用是复杂分析查询，关注数据整合，以及分析，处理性能

* OLAP根据数据存储的方式不同，又分为ROLAP，MOLAP，HOLAP

7.1.3 OLAP系统分类

* ROLAP（Relation OLAP，关系型OLAP）：使用关系模型构建，存储系统一般为RDBMS

* MOLAP（Multidimensional OLAP，多维型OLAP）：预先聚合计算，使用多维数据的形式保存数据结果，加快查询分析时间

* HOLAP（Hybrid OLAP，混合架构的OLAP）：ROLAP和MOLAP两者的集成；如底层是关系型的，高层是多维矩阵型的；查询效率高于ROLAP, 低于MOLAP

7.2 ROLAP

* 典型的数据仓库建模方法有ER模型，维度模型，Data Value，Anchor

-- ER模型：出发点是整合数据，为数据分析决策服务。需要全面的了解业务和数据。实施周期长。最建模人员能力要求高

-- 维度建模：为分析需求服务，更快的完成需求分析。具有较好大规模复杂查询相应性能。最流行的数仓建模模型，最经典

-- Data Value和 Anchor 略

7.2.1 维度模型

* 维度模型中，表被分为维度表，事实表，维度是对事实的一种组织

* 维度一般包含分类，时间，地域等

* 维度模型分为星型模型（维度只有一层，分析性能最好），雪花模型（多层维度，比较灵活），星座模型（公用维度表，大型数据仓库的常态，与模型设计无关）

-- 宽表模型：是维度建模的衍生，适合join性能不佳的数据仓库产品

-- 宽表模型：将维度冗余到事实表中，形成宽表，以此减少join操作

* 维度模型建立后，方便对数据进行多维分析

7.3 MOLAP（偏向产品实现--Kylin）

* 将数据进行与计算结果，并将聚合结果存储到CUBE模型中

* CUBE模型以多维数组的形式，物化到存储系统中，加快后续的查询

* 生成CUBE需要大量的时间，空间，维度处理可能会导致数据膨胀

7.4 OLAP多维分析

* OLAP主要操作是复杂查询，可以多表关联，使用Count，Sum，Avg等聚合函数

* OLAP对复杂查询操作做了直观的定义，包括钻取，切片，切块，旋转

7.4.1 钻取
* 对维度不同层次的分析，通过改变维度的层次来变换分析的粒度

* 钻取包括上卷（Roll-up）、下钻（Drill-down）

* 上卷（Roll-up）：维度从低层次到高层次的切换，如：组-->村->镇->县->市->省->国

* 下钻（Drill-down）：与上卷相反

7.4.2 切片（Slice）、切块（Dice）、旋转（Pivot）

* 选择某个维度进行分割成为切片

* 按照多维进行的切片成为切块

* 对维度方向的互换

8. 数仓应用要点

8.1 维度建模中表的分类

* 事实表：指一个现实存在的业务对象，比如用户，商品，商家，销售员等等

* 维度表：对应一些业务状态，代码的解释，可以对事实表中的数据进行统计，聚合运算

* 事务事实表：业务产生的数据，一旦产生不会在变化，如交易流水，操作日志，出库入库记录

* 周期快照事实表：随着业务周期性的推进而变化，完成间隔周期内的度量统计，如年，季度累计

使用周期+状态度量的组合，如年累计订单数，年是周期，订单总数据是量度

* 累积快照事实表：记录不确定周期的度量统计，完全覆盖一个事实的生命周期，如订单状态表

通常有多个时间字段，用于记录生命周期中的关键时间点

只有一条记录，针对此记录不断更新

* 拉链表：拉链表记录每条信息的生命周期，用于保留数据的所有历史（变更）状态

拉链表将数据的随机修改方式，变为顺序追加

8.1.1 累积快照事实表的实现方式

实现方式一：

* 使用日期分区表，全量数据记录，每天的分区存储昨天全量数据与当天增量数据合并的结果

* 数据量大会导致全量表膨胀，存储大量永远不更新的冷数据，对性能影响较大

* 适用于数据量少的情况

实现方式二：

* 使用日期分区表，推测数据最长生命周期，存储周期内数据；周期外的冷数据存储到归档表

* 需要保留多天的分区数据，存储消耗依然很大

实现方式三：

* 使用日期分区表，以业务实体的结束时间分区，每天的分区存放当天结束的数据；设计一个时间非常大的分区，如9999-12-31，存放截止当前未结束的数据

* 已结束的数据存放到相应分区，存放未结束数据的分区，数据量也不会很大，ETL性能好

* 无存储浪费，数据全局唯一

* 业务系统可能无法标识业务实体的结束时间，可以使用其他相关业务系统的结束标志作为此业务系统的结束，也可以使用最长生命周期时间或全段系统的数据归档时间

8.2 ETL策略

8.2.1 全量同步

* 数据初始化装载一定是全量同步的方式

* 因为业务，技术原因，使用全量同步的方式做周期数据更新，直接覆盖原有数据即可

8.2.1 增量同步

* 传统数据整合方案中，大多数采用merge方式（update + insert）

* 主流大数据平台不支持update操作，可采用全外连接+数据全量覆盖方式

--如果担心数据更新出错，可以采用分区方式，每天保存最新的全量版本，保留较短周期

8.3 任务调度

* 解决任务单元间的依赖关系

* 自动化完成任务的定时执行

* 常见的任务类型：Shell， Java程序， MapReduce程序，SQL脚本

* 常见的调度工具：Azkaban，Oozie

minyaoleo

关注

2
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
数据仓库原理&实战（理论）

数据仓库的诞生背景数据仓库诞生的原因历史数据积存企业数据分析需要历史数据积存历史数据使用频率低，堆积在业务库中，导致性能下降企业数据分析需要各个部门自己建立独立的数据抽取系统，导致数据不一致数据仓库概述数据仓库的技术实现MPP&分布式架构技术常见的数据仓库产品数据仓库架构设计...
复制链接

扫一扫

专栏目录