浅谈数据仓库
前言:数据挖掘的一个重要基础就是大量的、高质量的数据,数据的采集和收集是数据挖掘基础且重要的一步。由于数据本身的类型多样,具有异构性和多维度、复杂等特性,需要一种有组织的、高效的数据存取结构,集成存储,所以诞生了数据仓库。
一 数据库和数据仓库
名称 | 数据特点 | 技术 | 应用 | 区别 |
数据库 | 有组织、可共享、统一的结构存储数据 | 联机事务处理(OLTP) | 银行交易、订单业务、 | 1面向事物而设计的 2主要是在线交易数据 3结构设计原则不同-数据的访问效率要高,有一定的范式约束 |
数据仓库 | 主题的、集成的、相对稳定的、反应历史变化的数据特点 | 联机分析处理(OLAP) | 根据不同的主题,对于失去时效性的数据进行分析 | 1面向主题而设计的 2历史数据 3结构设计原则不同-反范式设计。 |
根据以上的对比,我们总结数据仓库的特点如下:
1面向主题的。按照需要支持的决策主题组织数据,将同一主题数据进行存储。
2集成的。将分散在不同数据库中的异构的、类型多样的、彼此相互独立的数据进行整合,收集。
3相对稳定的。数据库中不再具有实时性的数据,被存储到数据仓库中。
4反应历史变化。数据仓库中数据的时间属性非常重要,可以表达历史变化。满足决策需求。
二 数据(库)模型
名称 | 过程 | 功能 | 作用 |
规范化 | 进行模式分解:依据范式, | 提高数据的访问率 | 消除插入和删除异常、更新异常。 |
反向规范化 | 关系的连接是两两关系连接 | 破坏范式约束。 | 以组合实体的形式进行大量的反规划工作 |
三 设计数据仓库
数据仓库建立过程:
ETL处理的过程:
数据处理过程名称 | 内容 | 作用 |
数据抽取 | 从多个异构的数据库中、独立数据集市、平面文件等中提取与数据仓库主题相关的数据 | 初始化数据仓库为目的的全量抽取和以维护为目的的增量抽取。 |
数据变化 | 建立源数据和目标数据之间的映射关系。 | (1) 缺失数据的替换 (2) 建立完整性约束,并调整数据的一致性。 (3) 建立在多数据源中选择数据的判断逻辑。 (4) 拆分和合并数据 (5) 增加数据记录的时间属性 (6) 按照数据分析的数据粒度要求,汇总和聚集数据 |
数据清洗(重点) | 清洗技术包括很多:基于数理统计的方法、模式识别的方法、基于距离的聚类方法等 | 清洗数据抽取和变换之后的大量“脏数据”。 |
数据加载 | 按照统一数据格式将符合数据仓库环境要求的数据转存到数据仓库的过程 | 为数据仓库提供便于主题计算和分析的数据 |
具体用来进行ETL的工具有很多,我们可以选取几门进行掌握。方便进行ETL处理。
元数据
定义 | 数据类型 | 功能 | 特征 |
元数据是定义和描述其他数据的数据,是关于数据的数据。 | 结构性元数据 | 描述数据的类型、数据内容、表示规则、数据之间的关系。 | (1)描述数据的特征 (2)动态特性(3)数据类型多样性 (4)既可以是一个数据集合,也可以是单个数据(5)描述对象的多层次(6)数据量大 |
操作性元数据 | 描述数据的质量和用途 |
数据仓库模型的建立采用两种技术,一种是将数据仓库模型构造为多维数组,另外一种是用关系模型存放数据仓库中的数据,并调用关系数据库引擎将数据以多维格式展现给用户。
名称 | 定义 | 应用 | 任务 |
星型模型 | 定义多维空间的维数。包括一张事实表,每张维度表和事实表之间的联系是一对多的联系。 | 只能为一种评价决策提供支持。 | (1)选择主题(2)确定事实表和表结构、维度表和表结构,从而决定数据仓库的目标数据 (3)确定事实的个数和展示角度(4)确定维度数是否需要分层和分层的个数(5)分析数据源,确定数据源是否支持主题的数据,包括事实数据和维度数据。 |
雪花模型 | 将维度表进行分层形成的模型 | 使维度表被规范化,减少数据冗余,提高存储效率 | |
星座模型 | 两个或两个以上的事实表。 | 可支持多个主题。 |
数据集市与决策支持系统
数据集市中的数据是面向某个特定主题的,且分为两类,第一类:独立型数据集市-直接从传统操作型数据库或外部数据源中获取数据;第二类:依赖型数据类型-从企业数据仓库中获取数据。数据仓库不可能由多个数据集市进行简单合并而产生。
决策支持系统
决策支持的形式可以是数据报告、分析数据和只是发现三个层次。
数据报告:报告数据依赖于数据查询,是最低层次的决策支持。但作为基础,一部分内容报告对任何成功的商业运作都是最为重要的。
分析数据:通常用某种形式的多维数据分析工具来完成。
知识发现:数据挖掘的主要任务是知识发现,但是使用一些复杂的查询和数据分析技术有时能够发现数据中有趣的模式。
四 联机分析处理
定义 | 分类 | 内容 | 操作 | 特点 | 应用 |
基于查询和报告的面向特定问题的多维环境下的数据分析方法和工具 | ROLAP | 定义一组视图同时存储在关系数据库中 | (1)切片 (2)切块(3)上卷或聚集(4)下钻(5)旋转或转轴 | (1)快速性(2)多维性-多维立方体 (3)可分析行(4)信息量大 | Excel的数据透视表和数据透视图 |
MOLAP | 形成数据立方体 | ||||
混合联机分析处理 | 两种有机结合 |
这里只是简单的介绍数据仓库的一些概念,具体的案例和应用,技术的实现,以后的笔记给出。
2016/9/4