数据挖掘基础之要挖掘什么

数据挖掘功能——可以挖掘什么类型的模式?

我们已经观察了可以进行数据挖掘的各种数据存储和数据库系统。现在,让我们考察可以挖掘的数据模式。

数据挖掘功能用于指定数据挖掘任务中要找的模式类型。一般地,数据挖掘任务可以分两类:描述和预测。描述性挖掘任务刻划数据库中数据的一般特性。预测性挖掘任务在当前数据上进行推断,以进行预测。

在某些情况下,用户不知道他们的数据中什么类型的模式是有趣的,因此可能想并行地搜索多种不同的模式。这样,重要的是,数据挖掘系统要能够挖掘多种类型的模式,以适应不同的用户需求或不同的应用。此外,数据挖掘系统应当能够发现各种粒度(即,不同的抽象层)的模式。数据挖掘系统应当允许用户给出提示,指导或聚焦有趣模式的搜索。由于有些模式并非对数据库中的所有数据都成立,通常每个被发现的模式带上一个确定性或“可信性”度量。

数据挖掘功能以及它们可以发现的模式类型介绍如下。

 

概念/类描述:特征和区分

数据可以与类或概念相关联。例如,在 AllElectronics 商店,销售的商品类包括计算机和打印机,顾客概念包括 bigSpenders budgetSpenders。用汇总的、简洁的、精确的方式描述每个类和概念可能是有用的。这种类或概念的描述称为类/概念描述。这种描述可以通过下述方法得到(1)数据特征化,一般地汇总所研究类(通常称为目标类)的数据,或(2)数据区分,将目标类与一个或多个比较类(通常称为对比类)进行比较,或(3)数据特征化和比较。

数据特征是目标类数据的一般特征或特性的汇总。通常,用户指定类的数据通过数据库查询收集。例如,为研究上一年销售增加 10%的软件产品的特征,可以通过执行一个 SQL 查询收集关于这

些产品的数据。

有许多有效的方法,将数据特征化和汇总。例如,基于数据方的 OLAP 上卷操作(1.3.2 小节)可以用来执行用户控制的、沿着指定维的数据汇总。该过程将在第 2 章介绍数据仓库时进一步详细讨论。面向属性的归纳技术可以用来进行数据的泛化和特征化,而不必一步步地与用户交互。这一技术将在第 5 章讨论。

数据特征的输出可以用多种形式提供。包括饼图、条图、曲线、多维数据方和包括交叉表在内的多维表。结果描述也可以用泛化关系或规则(称作特征规则)形式提供。这些不同的输出形式和它们的转换在第 5 章讨论。

 

关联分析

“什么是关联分析?”关联分析发现关联规则,这些规则展示属性-值频繁地在给定数据集中一起出现的条件。关联分析广泛用于购物篮或事务数据分析。

更形式地,关联规则是形如 X Y,即”A1 ... Am B1 ... Bn”的规则;其中, Ai (i{1,...,m}), Bj

(j{1,...,n})是属性-值对。关联规则解释为“满足 X 中条件的数据库元组多半也满足 Y 中条件”。

其中,X 是变量,代表顾客。该规则是说,所研究的 AllElectronics 顾客 2%(支持度)在 20-29 岁,年收入 20-29K,并且在 AllElectronics 购买 CD 机。这个年龄和收入组的顾客购买 CD 机的可能性有60%(置信度或可信性)。

注意,这是一个以上属性之间(即 age, income buys)的关联。采用多维数据库使用的术语,每个属性称为一个维,上面的规则可以称作多维关联规则。

 

分类和预测

分类是这样的过程,它找描述或识别数据类或概念的模型(或函数),以便能够使用模型预测类标号未知的对象。导出模型是基于对训练数据集(即,其类标号已知的数据对象)的分析。

“如何提供导出模型?”导出模式可以用多种形式表示,如分类(IF-THEN)规则、判定树、数学公式、或神经网络。判定树是一个类似于流程图的结构,每个结点代表一个属性值上的测试,每个分枝代表测试的一个输出,树叶代表类或类分布。判定树容易转换成分类规则。当用于分类时,神经网络是一组类似于神经元的处理单元,单元之间加权连接。

分类可以用来预测数据对象的类标号。然而,在某些应用中,人们可能希望预测某些遗漏的或不知道的数据值,而不是类标号。当被预测的值是数值数据时,通常称之为预测。尽管预测可以涉及数据值预测和类标号预测,通常预测限于值预测,并因此不同于分类。预测也包含基于可用数据的分布趋势识别。

相关分析可能需要在分类和预测之前进行,它试图识别对于分类和预测无用的属性。这些属性应当排除。

 

聚类分析

“何为聚类分析?”与分类和预测不同,聚类分析数据对象,而不考虑已知的类标号。一般地,训练数据中不提供类标号,因为不知道从何开始。聚类可以产生这种标号。对象根据最大化类内的相似性、最小化类间的相似性的原则进行聚类或分组。即,对象的聚类这样形成,使得在一个聚类中的对象具有很高的相似性,而与其它聚类中的对象很不相似。所形成的每个聚类可以看作一个对象类,由它可以导出规则。聚类也便于分类编制,将观察组织成类分层结构,类似的事件组织在一起。

 

局外者分析

数据库中可能包含一些数据对象,它们与数据的一般行为或模型不一致。这些数据对象是局外者。大部分数据挖掘方法将局外者视为噪音或例外而丢弃。然而,在一些应用中(如,欺骗检测),罕见的事件可能比正规出现的那些更有趣。局外者数据分析称作局外者挖掘。

局外者可以使用统计试验检测。它假定一个数据分布或概率模型,并使用距离度量,到其它聚类的距离很大的对象被视为局外者。基于偏差的方法通过考察一群对象主要特征上的差别识别局外者,而不是使用统计或距离度量。

 

演变分析

数据演变分析描述行为随时间变化的对象的规律或趋势,并对其建模。尽管这可能包括时间相关数据的特征、区分、关联、分类或聚类,这类分析的不同特点包括时间序列数据分析、序列或周期模式匹配和基于类似性的数据分析。

 

 

所有模式都是有趣的吗?

你可能会问:“所有模式都是有趣的吗?”答案是否定的。实际上,对于给定的用户,在可能产生的模式中,只有一小部分是他感兴趣的。

这对数据挖掘系统提出了一系列的问题。你可能会想:“什么样的模式是有趣的?数据挖掘系统能够产生所有有趣的模式吗?数据挖掘系统能够仅产生有趣的模式吗?”

对于第一个问题,一个模式是有趣的,如果(1)它易于被人理解,(2)在某种程度上,对于新的或测试数据是有效的,(3)是潜在有用的,(4)是新颖的。如果一个模式符合用户确信的某种假设,它也是有趣的。有趣的模式表示知识。

存在一些模式兴趣度的客观度量。这些基于所发现模式的结构和关于它们的统计。对于形如XY 的关联规则,一种客观度量是规则的支持度。规则的支持度表示满足规则的样本百分比。支持度是概率 P (X Y ),其中,X Y 表示同时包含 X Y 的事务;即,项集 X Y 的并。关联规则的另一种客观度量是置信度。置信度是条件概率 P (Y | X);即,包含 X 的事务也包含 Y 的概率。

第二个问题——“数据挖掘系统能够产生所有有趣的模式吗?”——涉及数据挖掘算法的完全性。期望数据挖掘系统产生所有可能的模式是不现实的和低效的。实际上,应当根据用户提供的限制和兴趣度对搜索聚焦。对于某些数据挖掘任务,这通常能够确保算法的完全性。关联规则挖掘就

是一个例子,那里,使用限制和兴趣度度量可以确保挖掘的完全性。所涉及的方法细节将在第 6 章详细考察。

最后,第三个问题——“数据挖掘系统能够仅产生有趣的模式吗?”是数据挖掘的优化问题。对于数据挖掘系统,仅产生有趣的模式是非常期望的。这对于用户和数据挖掘系统是非常有效的,因为这样就不需要搜索所产生的模式,以便识别真正有趣的模式。在这方面已经有了进展。然而,在数据挖掘中,这种优化仍然是个挑战。

为了有效地发现对于给定用户有价值的模式,兴趣度度量是必需的。这种度量可以在数据挖掘步之后使用,根据它们的兴趣度评估所发现的模式,过滤掉不感兴趣的那些。更重要的是这种度量可以用来指导和限制发现过程,剪去模式空间中不满足预先设定的兴趣度限制的子集,改善搜索性能。

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值