数据仓库与数据挖掘 DATA WAREHOUSING AND DATA MINING

数据仓库与数据挖掘
(DATA WAREHOUSING AND DATA MINING)
第一章
数据仓库与数据挖掘概述
本章要点
– 数据仓库的发展
– 数据仓库的基本概念
– 数据挖掘的发展
– 数据挖掘的基本概念
– 数据仓库与数据挖掘的集

3
数据仓库的发展
• 自从NCR
公司为Wal
lWa
Mart
建立了第一个数据仓库。
• 1996
年,加拿大的IDC
公司调查了62
家实现了数据仓库的欧美
企业。
• 客户/
服务器结构->
分布式对象。
• IBM
的实验室在数据仓库方面已经进行了10
多年的研究,并将
研究成果发展成为商用产品。
• 其他数据库厂商在数据仓库领域也纷纷提出了各自的解决方案。
4
数据仓库的发展
• IBM:
在其DB2UDB
2BDU
发布一年后的1998
年9
月发布5.2
版,并于1998
年12
月推向中国市场,除了用于OLAP
(联机分析处理)的后台服务器DB2 OLAP Server
r2vPBLADS 外,IBM
还提供了一系列相关的产品,包括前端工
具,形成一整套解决方案。
• Informix
iIoxnmrf
公司:
在其动态服务器IDS
(Informix
Dynamic Server
icrvyDSeneam
)中提供一系列相关选件,如高级决
策支持选件(Advanced Decision Support Option
)、
OLAP
选件(MetaCube
ROLAP Option
)、扩展并
行选件(Extended Parallel Option
)等。
5
数据仓库的发展
• 微软公司:
在其SQL Server7.0
以及SQL Server2000
中集
成了代号为Plato
laoPt
的OLAP
服务器。
• Sybase:
提供了专门的OLAP
服务器Sybase IQ
eSQIybas
,并将其
与数据仓库相关工具打包成Warehouse Studio

• Oracle
leraOc
公司:
则推出从数据仓库构建、OLAP
到数据集
市管理等一系列产品包(如Oracle Warehouse Builder
leradhuOBWcieouasr

Oracle Express
lseraxOEcpr
、DataMart
taDtrM
Suit
tSui
等)。
6
数据仓库在我国的发展
• 现状:数据仓库的概念已经被国内用户接受多年,但在
应用方面的收效仍很有限。
• 原因:
– 尚不存在可靠的、完善的、被广泛接受的数据仓库标准;
– 现有的数据库系统不健全,数据积累还不够,无法提出决策
支持需求;
– 缺乏能够担负规划、设计、构建和维护数据仓库的重任的复
合型人才;
– 缺乏数据仓库前端工具(如OLAP
工具、数据挖掘工具等);
– 由于国内外文化的差异,一些用于构建数据仓库的知名产品
无法处理一些难以预料的问题,使得建立数据仓库的困难加
大。
7
数据仓库的我国的发展
• 前景:随着计算机技术的发展,尤其是分布式技术
的发展,
数据仓库在我国有着广阔的发展空间和良
好的发展前景。例如:
– 由于银行商业化的步伐正在加大,各大中型银行在入世的
机遇和挑战下,开始重新考虑自身的业务,特别是信贷风
险管理方面特别注意,因而有关信贷风险管理和风险规章
的基于数据仓库的决策支持系统的需求逐渐增多;
– 由于电子商务的迅速发展,越来越多的电子商务网站,开
始考虑如何将数据仓库应用于商品销售分析、顾客的诚信
度分析等,为客户提供更进一步的个性化服务;
– 如移动通信等各大型企业也开始考虑着手进行决策支持以
及数据仓库规划。
8
从数据库到数据仓库
• 数据库应用的规模和深度

线

互联网
在线分析处理(OLAP)
在线事务处理
决策支持(DS)
(OLTP)
数据挖掘(Data Mining)
9
事务型处理与分析型处理
• 事务型处理:即操作型处理,是指对数据库
的联机操作处理。事务型处理是用来协助企
业对响应事件或事务的日常商务活动进行处
理。它是事件驱动、面向应用的,通常是对
一个或一组记录的增、删、改以及简单查询
等。
10
分析型处理
• 分析型处理:用于管理人员的决策分析,例
如DSS

EIS
、和多维分析等。它帮助决策者
分析数据以察看趋向、判断问题。分析型处
理经常要访问大量的历史数据,支持复杂的
查询。在分析型处理中,并不是对从事务型
处理环境
中得到的细节数据进行分析。分析
型处理过程中经常用到外部数据。
11
事务型处理数据和分析型处理数据的区别
事务型处理数据
分析型处理数据
细节的
综合的,或提炼的
在存取瞬间是准确的
代表过去的数据
可更新
不可更新,只读的
操作需求事先可知道
操作需求事先不知
生命周期符合SDLC
完全不同的生命周期
对性能要求高
对性能要求宽松
一个时刻操作一个单元一个时刻操作一个
事务驱动分析驱动
面向应用面向分析
一次操作数据量小一次操作数据量大
支持日常操作支持管理需求
12
数据库系统的局限性
• 数据库适于存储高度结构化的日常事务细节数据,
而决策型数据多为历史性、汇总性或计算性数据,
多表现为静态数据,不需直接更新,但可周期性刷
新。

决策分析型数据是多维性,分析内容复杂。

在事务处理环境中,决策者可能并不关心具体的
细节信息,在决策分析环境中,如果这些细节数据
量太大一方面会严重影响分析效率,另一方面这些
细节数据会分散决策者的注意力。
13
数据库系统的局限性
• 当事务型处理环境和分析型处理环境在同一个数
据库系统中,事务型处理对数据的存取操作频率
高,操作处理的时间短,而分析型处理可能需要
连续运行几个小时,从而消耗大量的系统资源。

决策型分析数据的数据量大,这些数据有来自企
业内部的,也有来自企业外部的。来自企业外部
的数据又可能来自不同的数据库系统,在分析时
如果直接对这些数据操作会造成分析的混乱。对
于外部数据中的一些非结构化数据,数据库系统
常常是无能为力的。
14
多库系统的限制
• 可用性:源站点或通信网络故障将导致系统瘫
痪,
源站点不能通过网络在线联入多库系统。
• 响应速度:全局查询多级转换和通信传输,
延迟
和低层效率影响响应速度。
• 系统性能:总体性能取决于源站点中性能最低
的系统,
影响系统性能的发挥;
• 系统开销:
每次查询要启动多个局部系统,

信和运行开销大。
15
数据仓库(Data Warehouse)
的定义
– 数据仓库用来保存从多个数据库或其它信息源选取的
数据,
并为上层应用提供统一
用户接口,完成数据查
询和分析。
– 数据仓库是作为DSS
服务基础的分析型DB
,用来存
放大容量的只读数据,为制定决策提供所需要的信息。
– W.H.Inmon
onWInm.对数据仓库所下的定义:数据仓库是面
向主题的、集成的、稳定的、随时间变化的数据集
合,用以支持管理决策的过程。
16
数据仓库的适用范围
– 信息源中的数据变化稳定
– 或可预测应用不需要最新的数据
– 或允许有延迟
应用要求有较高的查询性能
而降低精度要求
17
数据仓库中数据的特点

面向主题

集成性

稳定性

时变性
18
面向主题
• 主题:是一个抽象的概念,是在较高层次上
将企业信息系统中的数据综合、归类并进行
分析利用的抽象。
• 面向主题的数据组织方式可在较高层次上对
分析对象的数据给出完整、一致的描述,能
完整、统一的刻画各个分析对象所涉及的企
业的各项数据以及数据之间的联系。
19
集成性
• 数据仓库中的数据是从原有分散的源数据
库中提取出来的,其每一个主题所对应的
源数据在原有的数据库中有许多冗余和不
一致,且与不同的应用逻辑相关。因此,
数据仓库在提取数据时必须经过数据集
成,消除源数据中的矛盾,并进行数据综
合和计算。经过数据集成后,数据仓库所
提供的信息比数据库提供的信息更概括、
更本质。
20
稳定性
• 数据仓库中的数据反映的是一段时间内历史
数据的内容,是不同时点的数据库快照的集
合,以及基于撰写快照进行统计、综合和重
组的导出数据,而不是联机处理的数据。主
要供企业高层决策分析之用,所涉及的数据
操作主要是查询,一般情况下并不进行修改
操作,即数据仓库中的数据是不可实时更新
的,仅当超过规定的存储期限,才将其从数
据仓库中删除,提取新的数据经集成后输入
数据仓库。
21
时变性
• 时变性:许多商业分析要求对发展趋势做出
预测,对发展趋势的分析需要访问历史数据。
因此数据仓库必须不断捕捉OLTP
数据库中
变化的数据,生成数据库的快照,经集成后
增加到数据仓库中去;另外数据仓库还需要
随时间的变化删去过期的、对分析没有帮助
的数据,并且还需要按规定的时间段增加综
合数据。
22
支持管理决策
• 数据仓库支持OLAP
(联机分析处理)、数据挖
掘和决策分析。OLAP
从数据仓库中的综合数据
出发,提供面向分析的多维模型,并使用多维分
析的方法从多个角度、多个层次对多维数据进行
分析,使决策者能够以更加自然的方式来分析数
据。数据挖掘则以数据仓库和多维数据库中的数
据为基础,发现数据中的潜在模式和进行预测。
因此,数据仓库的功能是支持管理层进行科学决
策,而不是事务处理。
23
数据仓库的技术要求
• 大量数据的组织和管理:包含了大量的历史数据,
不必关心它的数据安全性和数据完整性。
• 复杂分析的高性能体现:涉及大量数据的聚集、综
合等,在进行复杂查询时经常会使用多表的联接、
累计、分类、排序等操作。
• 对提取出来的数据进行集成:数据仓库中的数据在
不同的应用领域和不同的数据库系统中都有不同的
结构和形式,所以如何对数据进行集成也是构建数
据仓库的一个重要方面。
• 对进行高层决策的最终用户的界面支持:提供各种
分析应用工具。
24
数据挖掘的发展
• 数据挖掘是与数据仓库密切相关的一个信息技术新
领域,它是信息技术自然演化的结果。
• 随着数据库技术的迅速发展以及数据库管理系统的
广泛应用,人们积累的数据越来越多,但缺乏挖掘
数据中隐藏的知识的手段,导致了“
数据爆炸但知
识贫乏的”
现象。
• 自80
年代后期以来,联机分析处理(OLAP
)和数
据挖掘技术应运而生。
25
数据挖掘的发展
• 数据挖掘(Data Mining
tigM
,简记为DM
)是从关系
数据库、数据仓库、WEB
BWE
数据库以及其他文件系
统中发现重要的数据模式、规律的过程,因此又
称为数据库中的知识发现(Knowledge Discovery
in Database,
简记为KDD
),它是OLAP
的高级阶
段。
• 自20
世纪80
年代起,开始了数据挖掘技术的研究。
1989
年在美国召开的国际学术会议上包含了“
从数
据库中知识发现”
的主题;1995
年在加拿大召开了
第一届知识发现与数据挖掘国际学术会议。
26
数据挖掘的定义
• 数据挖掘(Data Mining
tigM
,简记为DM
):是指从大型
数据库或数据仓库中提取隐含的、未知的、非平凡的
及有潜在应用价值的信息或模式的高级处理过程。
• 模式:即知识,它给出了数据特性或数据之间的关
系,是对数据所包含的信息更抽象的描述。按功能可
以分为预测型模式和描述型模式。在实际应用中,可
以细分为关联模式、分类模式、聚类模式和序列模式
等。
• 数据挖掘是一门交叉性学科,它涉及到机器学习、模
式识别、统计学、智能数据库、知识获取、数据可视
化、高性能计算、专家系统等多个领域。可广泛地应
用于信息管理、过程控制、科学研究、决策支持等许
多方面。
27
数据挖掘的类型
• 数据挖掘的任务是从大量的数据中发现模式。
根据数据挖掘的任务可分为多种类型,其中
比较典型的有:
– 预测模型
– 关联分析
– 分类分析
– 聚类分析
– 序列分析
– 偏差检测
– 模式相似性挖掘
– Web
bWe
数据挖掘
28
预测模型
• 预测模型(Predictive Modeling
):所谓预测即
从数据库或数据仓库中已知的数据推测未知的
数据或对象集中某些属性的值分布。
• 建立预测模型的常用方法:
– 回归分析
– 线性模型
– 关联规则
– 决策树预测
– 遗传算法
– 神经网络
29
关联分析
• 关联(Association
)分析:关联规则描述了一组数据
项之间的密切度或关系。关联分析用于发现项目集之
间的关联。在关联规则挖掘算法中,通常给出了置信
度和支持度两个概念,对于置信度和支持度均大于给
定阈值的规则称为强规则,而关联分析主要就是对强
规则的挖掘。
• 关联规则挖掘近几年研究较多。它广泛地运用于帮助
市场导向、商品目录设计客户关系管理)(CRM

和其他各种商业决策过程中。
• 关联分析算法:APRIORI
算法、DHP
算法、DIC
算法、
PARTITION
算法及它们的各种改进算法等。。
30
分类分析
• 分类(Classification
)分析:所谓分类是根据数据的
特征为每个类别建立一个模型,根据数据的属性将数
据分配到不同的组中。在实际应用过程中,分类规则
可以分析分组中数据的各种属性,并找出数据的属性
模型,从而确定哪些数据属于哪些组。分类分析已经
成功地用于顾客分类、疾病分类、商业建模和信用卡
分析等。
• 分类分析的常用方法:
– 约略(Rough
)集
– 决策树
– 神经网络
– 统计分析法
31
聚类分析
• 聚类(Clustering)
分析:所谓聚类是指一组
彼此间非常“
相似”
的数据对象的集合。相似
的程度可以通过距离函数来表示,由用户或
专家指定。聚类分析是按照某种相近程度度
量方法将数据分成互不相同的一些分组。聚
类分析的常用方法:
– 随机搜索聚类法
– 特征聚类
– CF

32
序列分析
• 序列(Sequence
)分析:序列分析主要用于
分析数据仓库中的某类与时间相关的数据,
搜索类似的序列或子序列,并挖掘时序模式、
周期性、趋势和偏离等。例如,它可以导出
类似“
若AT&T
股票连续上涨两天且DEC

票不下跌,则第三天IBM
股票上涨的可能性
为75%

的数据关系。序列模式可以看成是
一种特定的关联模型,它在关联模型中增加
了时间属性。
33
偏差检测与模式相似性挖掘
• 偏差检测(Deviation Detection
):用于检测并解释
数据分类的偏差,它有助于滤掉知识发现引擎所抽
取的无关信息,也可滤掉那些不合适的数据,同时
可产生新的关注性事实。
• 模式相似性挖掘:用于在时间数据库或空间数据库
中搜索相似模式时,从所有对象中找出用户定义范
围内的对象;或找出所有元素对,元素对中两者的
距离小于用户定义的距离范围。模式相似性挖掘的
方法有相似度测量法、遗传算法等。
34
Web
bWe
数据挖掘
• Web
bWe
数据挖掘包括Web
bWe
使用模
式挖掘、Web
bWe
结构挖掘和Web
bWe
内容挖掘等。
• 基于Web
bWe
的研究:搜索引擎的
设计、文件自动分类技术、关
键词的自动提取、半结构化信
息的提取及Web
bWe
上新型应用的
研究等
阅读更多
换一批

没有更多推荐了,返回首页