1. 面向数据库的方法:面向大型数据库的概念描述的概化方法
使用基于数据立方体的方法 或者 面向属性的归纳的方法
2. 机器学习:使用示例学习的范例,在概念集或标定训练样本集上进行,通过检验这些集合在学习中导出关于描述类的假定
差异:
所用的基本原理不同,关于概念描述的基本假定也不同
1) 在示例学习的范例中,分析样本划分为两个集合:正样本和负样本,正样本用于概化,负样本用于特化,最后的概念描述会覆盖所有正样本而不覆盖任何负样本
2) 在面向数据库的方法中,只存在正样本,因此大部分面向数据库的方法都是基于概化的(使用该方法时,下钻操作用于回溯到前一状态的概化过程)
训练样本集大小上的差异
1) 机器学习训练样本集小,容易找到覆盖所有正样本而不覆盖任何负样本的描述
2) 面向数据库的方法通常面对大量数据,因此概念描述的目标是尽量的涵盖正面数据(概率分布)
所使用的概化方法不同
1) 机器学习方法是逐个元组的进行概化
2) 面向数据库的方法是逐个属性(或维)的进行概化,从而使得数据挖掘的过程能够与面向集合的数据库操作集成