数据仓库与数据挖掘的OLAP技术
1.数据仓库
Ø 概念:数据仓库是一个面向主题的、集成的、随时间而变化的、不容易丢失的数据集合,支持管理部门的决策过程.
Ø 关键特征:
v 面向主题:围绕一些主题;关注决策者的数据建模与分析,而不是集中于组织机构的日常操作和事务处理(这是数据库的任务)。排除对于决策无用的数据,提供特定主题的简明视图。
v 数据集成:由异种数据源(关系数据库,一般文件,联机事务处理记录)集成构成的;使用数据清理和数据集成技术。
v 随时间而变化:数据仓库的时间范围比操作数据库要长的多,每一个关键结构都隐式或显式地包含时间元素。
v 数据不易丢失:数据是只读的(除了初始转载),不需要事务处理,恢复,和并发控制。
Ø 建立数据仓库
数据集成,数据清理和数据统一
对于异种数据库的集成,传统的数据库做法:包装程序和集成程序 --》查询驱动
数据仓库做法:异种源的信息预先集成 --》更新驱动
Ø 操作数据库系统(OLTP)与数据数据仓库(OLAP)的区别
特征 |
OLTP |
OLAP |
用户和系统的面向性 |
顾客 |
市场 |
数据内容 |
当前详细的数据 |
历史汇总的数据 |
数据库设计 |
ER模型,面向应用的数据库设计 |
星型。雪花模型和面向主题的数据库设计 |
视图 |
当前的,企业内部的数据 |
经过演化的集成的数据 |
访问模式 |
事务操作 |
事务查询 |
任务单位 |
简短的事务 |
复杂的查询 |
数据访问量 |
数十个 |
数百万条 |
用户数 |
数千个 |
数百个 |
DB规模 |
100M-数GB |
100GB- |