第五章:数据仓库与数据挖掘(数据仓库定义,特征,数据库和数据仓库(理解和掌握)基本结构简单了解,相关概念很重要,数据仓库与数据挖掘简单了解)
一. 数据仓库的定义:数据仓库是一个将数据转换成信息,使其能及时供最终用户使用的过程
二. 数据仓库的特征
- 数据仓库的数据是面向主题的:为特定的数据分析领域提供数据支持
- 数据仓库的数据是集成的:数据为分析服务,必须从多个数据源中获取
- 数据仓库的数据是非易失的:数据是经过抽取而形成的分析型数据
- 数据仓库的数据是随时间不断变化的:数据以一定时间段为单位进行统一更新
三.数据仓库和传统数据库系统的主要区别
- 主要任务不同:传统数据库系统主要执行联机事务,数据仓库在数据分析和决策支持方面提供服务
- 数据内容不同:数据库系统管理当前数据,数据仓库管理大量的历史存档数据,提供汇总和聚集机制,在不同粒度级别上存储和管理信息
- 数据目标不同:数据库系统面向业务操作,数据仓库面向主题
- 数据特性不同:数据库系统存储当前数据,数据动态变化;数据仓库中数据是批量载入的静态的,定期更新
- 数据结构不同:数据库系统采用面向应用的数据库设计,高度结构化和复杂的形式组织数据;数据仓库采用面向主题的数据组织模式,以适应分析决策,数据结构简单
- 支持的查询不同:数据库系统可以快速回答、简单查询;数据仓库需要回答更复杂的查询
- 数据组织模式不同:数据库系统信息分散在各子系统之中;数据仓库强调形成主题一致的信息集合
四.数据仓库的相关概念
- ETL:数据抽取、转换、加载工具
- 数据提取:数据仓库按分析的主题组织数据,只提取系统分析必需的数据
- 数据转换:将不同格式的数据转换成统一的数据格式
- 数据清洗:将错误不一致的数据进行更正删除,以免影响系统决策的正确性
- 数据加载:将数据按物理数据模型定义的表结构装入数据仓库
- 元数据:描述数据的数据,是数据仓库的中枢;元数据管理是数据仓库中的关键组件,贯穿了数据仓库的整个生命周期
元数据包括:
a) 数据仓库结构的描述信息:数据的维、层次结构、数据定义
b) 操作元数据:数据血统信息、数据流通信息、监视信息
c) 汇总用的算法:度量与维定义算法,数据主题、聚集、汇总等算法
d) 操作环境到数据仓库的映射信息:源数据库和内容,程序描述,数据处理规则
e) 关于系统性能的数据信息
f) 商务元数据 - 数据集市:更小更集中的数据仓库,为公司提供分析商业数据,针对某个应用,数据粒度粗,便于访问和分析、快速查询
- 维度:观察数据的特定角度
- 数据粒度:对数据仓库中的数据综合程度高低的一个度量