一. 什么是数据仓库
数据仓库是面向主题的、集成的、时变的和非易失性的数据集合,以支持管理的决策过程。
数据仓库的四个主要特征:
1.数据仓库是面向主题的
数据仓库的数据是以分析主题为中心来组织的。主题是一个抽象的概念,是企业决策分析所涉及的分析对象。按照面向主题的方式进行数据组织时,首先确
主题,然后根据主题,确定相应的数据内容。
2.数据仓库是集成的
数据仓库的数据来自多个不同的数据源。
多个数据源经常是异种或异构的,存在数据重复和语义不一致问题。
不是对这些数据源中某些数据的复制,而是对这些数据源中数据的进一步抽象。
它需要按照统一的结构、一致的格式、一致的度量单位、一致的语义、从不同的数据源提取数据并进行清洗、转换、综合、抽象,最后集成为面向主题的数据
集合,确保数据的综合性、宏观性和一致性。
3.数据仓库是随时间不断变化的
数据仓库中数据仓库中的数据是历史数据,应该随时间的延长不断增加新的数据内容。(周期性更新)
数据仓库中的数据是综合数据,这些综合数据一般都与时间有关,如按照时间段进行综合的数据。这些综合数据要随着时间的延长而不断地变化。
4.数据仓库是非易失的
数据仓库的数据主要供企业决策分析之用,很少进行修改,所涉及的数据操作主要有两类:
– 数据加载
– 数据查询和联机分析
数据仓库的数据一般都是历史数据,是对多个不同数据源进行统计、综合和重组后导出的数据。只要数据源中与数据仓库相关的数据不发生改变,数 据仓库中
的数据就不应该被改变。 一般来说,无需事务管理、并发控制与恢复等机制。
既然操作数据库中存放了大量的数据,为什么不直接对这种数据库进行联机分析处理,而是另外花费时间和资源去构建分离的数据仓库?
DBMS DWMS
具有功能 OLTP OLAP
数据视图 当前的 历史的
细粒度的 综合的
局部的 集成的
设计目的 面向应用 面向分析
查询 90%事先知道 90%是后知道的
update read-only but complex queries
一次操作所涉及 一次操作所涉及的数据量大
的数据量小
开发周期 需求驱动 数据驱动
二. 多维数据模型
1. 一个数据仓库由若干多维数据集合组成,一个多维数据集合对应一个分析主题
2. 一个多维数据集合包含两类数据:
度量属性:描述决策者进行分析计算用的数值型数据,是分析、统计的对象,如销售额。
维属性:描述度量属性的数据,如销售时间。表示决策分析者对主题数据考察的角度。维可以有复杂的层次关系。
3. 多维数据集合的表示:星型结构,雪花型结构
三. 数据仓库的实现技术
1. 基于关系的实现方法
以关系数据库作为管理系统,数据以“关系表”的形式存储
- 维表
- 事实表
用一个元组来表示多维空间中的一个点,元组中的某些属性值用来表示点在多维空间中的位置,其他属性值用来表示点的数据值。
2. 基于多维数组的实现方法
使用多维数组来存储多维数据集合。多维数据集合的维属性值被用做数组的维索引,确定多维数据集合中每个点在多维数组中的位置。
维属性值不需要被存储。多维数据集合的度量属性值表示点的数据值。
3. 混合方式
同时提供关系型和多维数组
扬长避短
– 利用关系表解决数据稀疏问题
– 利用多维数组解决元组中数值重复问题
选择某些维存储在关系表中,起到索引的作用