数据仓库的概念与体系结构
数据仓库与数据库的区别
数据仓库的概念:数据仓库是是一个面向主题的 、集成的、相对稳定的、反应历史变化的数据集合,通常用于决策支持
数据库:收集数据的仓库 容器
数据仓库的特点:
- 面向主题
- 集成的
- 想对稳定的
- 反映历史变化(带有时间戳)
一个数据库可能由若干个数据仓库组成
数据仓库的组成:
- 数据仓库数据库;
- 数据抽取工具;
- 元数据:技术元数据与业务元数据;(根据用途分)
- 访问工具;(数据查询 数据分析工具等)
- 数据集市(Data Marts);(数据仓库的某一特定部分的数据)
- 数据仓库管理;
- 信息发布系统。
数据挖掘的概念与方法
数据挖掘的概念:
数据挖掘(Data Mining),就是从大量数据中获取有效的、新颖的、潜在有用的、最终可理解的模式的非平凡过程
简单的说,数据挖掘就是从大量数据中提取或“挖掘”知识,又被称为数据库中的知识发现(Knowledge Discovery in Database, KDD)
数据挖掘的分类:
- 按挖掘对象分类:数据库、文本数据、多媒体数据、web信息等挖掘
- 按挖掘任务分类:关联分析、回归分析、分类、聚类、偏差分析和预测
- 按挖掘方法和技术分类:归纳学习类、仿生技术类、公式发现类、统计分析类、模糊数学类、可视化技术类
数据挖掘的分析方法:
直接数据挖掘 :利用可用的目标建立模型
间接数据挖掘:所有的变量中建立分析关系
数据仓库与数据挖掘的关系
若将数据仓库(Data Warehouse)比作矿井,那么数据挖掘(Data Mining)就是深入矿井采矿的工作
数据挖掘是从数据仓库中找出有用信息的一种过程与技术
数据仓库的技术、方法与产品
联机事务处理(OLTP)与联机分析处理(OLAP)的比较
OLTP | OLAP | |
---|---|---|
用户 | 操作人员,底层管理人员 | 决策人员,高级管理人员 |
功能 | 日常操作处理 | 分析决策 |
DB 设计 | 面向应用 | 面向主题 |
数据 | 最新的,细节的,二维的,分立的 | 历史的,聚集的,多维的,集成的 |
存取规模 | 读/写数条(甚至数百条)记录 | 读上百万(甚至上亿)条记录 |
操作频度 | 非常频繁(以秒计) | 比较稀松(以小时甚至以周计) |
工作单位 | 严格的事务 | 复杂的查询 |
用户数 | 数百个-数千万个 | 数个-数百个 |
DB 大小 | 100MB-GB | 100GB-TB |
OLAP技术的有关概念 :
- 维度
- 度量值
- 多维数据集
- 多维分析:钻取、切片与切块、旋转
OLAP根据其存储数据的方式可分为三类:
- ROLAP(多维OLAP)
- MOLAP(关系型OLAP)
- HOLAP (混合OLAP)
OLAP工具
数据仓库实施中的三个关键环节
- 数据抽取;
- 数据存储与管理;
- 数据表现 ;(数据仓库的展示界面)
数据仓库系统的体系结构
数据仓库系统的体系结构的分类
(1)两层架构(Generic Two-Level Architecture)。
(2)独立型数据集市(Independent Data Mart)。查询速度快 兼容性好点 局限性:产生冗余数据等 规模扩大时成本较高
(3)依赖型数据集市和操作型数据存储(Dependent Data Mart and Operational Data Store)。
(4)逻辑型数据集市和实时数据仓库(Logical Data Mart and Real-Time Data Warehouse)。
数据仓库 | 数据集市 | |
---|---|---|
数据的来源 | 生产系统、外部数据等 | 数据仓库 |
范围规模 | 企业级 | 部门级或工作组级 |
主题 | 以企业为主题 | 以部门或特殊的分析为主题 |
数据粒度 | 最细的粒度 | 较粗的粒度 |
数据结构 | 第三范式,规范化结构 | 星型模型、雪花模型、星座模型 |
历史数据 | 大量的历史数据 | 适度的历史数据 |
优化 | 处理海量数据、数据探索 | 便于访问和分析、快速查询 |
索引 | 高度索引 | 高度索引 |
课后题复习
1、数据仓库就是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合。
2、元数据是描述数据仓库内数据的结构和建立方法的数据,它为访问数据仓库提供了一个信息目录,根据数据用途的不同可将数据仓库的元数据分为技术元数据和业务元数据两类。
3、数据处理通常分成两大类:联机事务处理和联机分析处理。
4、多维分析是指以“维”形式组织起来的数据(多维数据集)采取切片、切块、钻取和旋转等各种分析动作,以求剖析数据,使拥护能从不同角度、不同侧面观察数据仓库中的数据,从而深入理解多维数据集中的信息。
5、ROLAP是基于关系数据库的OLAP实现,而MOLAP是基于多维数据结构组织的OLAP实现。
6、数据仓库按照其开发过程,其关键环节包括数据抽取、数据存储与管理和数据表现等。
7、数据仓库系统的体系结构根据应用需求的不同,可以分为以下4种类型:两层架构、独立型数据集合、以来型数据结合和操作型数据存储和逻辑型数据集中和实时数据仓库。
8、操作型数据存储实际上是一个集成的、面向主题的、可更新的、当前值的(但是可“挥发”的)、企业级的、详细的数据库,也叫运营数据存储。
9、“实时数据仓库”以为着源数据系统、决策支持服务和仓库仓库之间以一个接近实时的速度交换数据和业务规则。
10、从应用的角度看,数据仓库的发展演变可以归纳为5个阶段:以报表为主、以分析为主、以预测模型为主、以运营导向为主和以实时数据仓库和自动决策为主。