一、数据挖掘功能
(1) 频繁模式(Frequent Patterns)
(2) 分类(Classification)
(3) 聚类(Cluster Analysis)
(4) 异常检测(Outlier Detection)
二、学习组件化思想的目的
许多著名的数据挖掘算法都是由五个“标准组件”构成的,即模型或模式结构、数据挖掘任务、评分函数、搜索和优化方法、数据管理策略。每一种组件都蕴含着一些非常通用的系统原理。掌握了每一种组件的基本原理之后,再来理解由不同组件“装配”起来的算法就变得相对轻松。
三、五个标准化组件
1.数据挖掘任务
(1)模式挖掘:模式挖掘致力于从数据中寻找模式,比如寻找频繁模式,异常点等。频繁模式指在某个数据集中频繁出现的模式,这些模式可以是一个项集、一个子序列或者一个子结构(子图)。例如,在交易数据集中,牛奶和面包经常在一起出现,称之为频繁的项集。又如,人们经常在购买了个人电脑之后,就会购买打印机,称之为频繁的子序列。在某些图、树或格结构中频繁出现的一些子图、子树或子格则被称为频繁的子结构。
(2)描述建模:描述建模的目标是描述数据的全局特征。描述和预测的关键区别是:预测的目标是唯一的变量,如信用等级、疾病种类等,而描述并不以单一的变量为中心。描述建模的典型例子是聚类分析。
(3)预测建模:当被预测的变量是范畴型(category)时,称之为分类;当被预测的变量是数量型(quantitative)时,称之为回归。
2.模型或模式结构
(1)模型:对整个数据集的高层次、全局性的描述或总结。
(2)模式:局部的,它仅对一小部分数据做出描述。有可能只支持几个对象或对象的几个属性。
(3)通常把参数不确定的模型叫做模型的结构。把参数不确定的模式叫做模式的结构。一旦模型(模式)的参数被确定,便将这个特定的模型(模式)称为“已经拟合了的模型(模式)”,或者简称为模型(模式)。
3.评分函数
(1)定义:根据数据集为模型(模式)选择合适的参数值,即将结构拟合到数据。由于模型(模式)代表的是函数的一般形式,它的参数空间非常大,可选的参数值有很多。那么什么样的参数值比较好呢,需要一个评价指标,这个评价指标就是评分函数。评分函数用来对数据集与模型(模式)的拟合程度进行评估。。
(2)常用的评分函数有:
- 似然(likelihood)函数
- 误差平方和
- 准确率等
在为模型(模式)选择一个评分函数时,既要能够很好地拟合现有数据,又要避免过度拟合(对极端值过于敏感),同时还要使拟合后的模型(模式)尽量简洁。不存在绝对“正确”的模型(模式),所有模型(模式)都是对现有数据的一种近似。从这个角度来讲,如果模型(模式)没有随着现有数据的变化而剧烈变化,这个模型(模式)就是能够接受的了。换句话说,对数据的微小变化不太敏感的模型(模式)才是一个好的模型(模式)。
4.搜索和优化方法
(1)目标:搜索和优化的目标是确定模型(模式)的结构及其参数值,以使评分函数达到最小值(或最大值),如平方差最小、准确率最高等。
(2)搜索:从潜在的模型(模式)族中发现最佳模型(模式)结构的过程通常被称为搜索问题。
- 贪婪搜索
- 分支界定
- 宽度(深度)优先遍历等
(3)优化:针对特定的模型,发现其最佳参数值的过程通常被称为优化问题。
- 爬山
- 最陡峭下降
- 期望最大化(EM)等
如果模型(模式)的结构已经确定,则搜索将在参数空间内进行,目的是针对这个固定的模型(模式)结构,优化评分函数;如果模型(模式)的结构还没有确定的话(例如,存在一族不同的模型(模式)结构),那么搜索既要针对结构空间又要针对和这些结构相联系的参数空间进行。
5.数据管理策略
传统的统计和机器学习算法都假定数据是可以全部放入内存的,所以不太关心数据管理技术。但是,对于数据挖掘工作者来说,GB甚至TB数量级的数据是常见的。由于外存的访问速度要慢的多,直接将传统的内存算法应用于这些外存数据,性能将变得非常差。因此,针对海量数据,应该设计有效的数据组织和索引技术,或者通过采样、近似等手段,来减少数据的扫描次数,从而提高数据挖掘算法的效率。
参考:
《数据仓库与数据分析教程》 王珊 李翠平 等编著