聚类算法推荐：一种元学习的方法

最新推荐文章于 2024-02-26 00:12:43 发布

Turingkk

最新推荐文章于 2024-02-26 00:12:43 发布

阅读量5.4k

点赞数

分类专栏：大数据文章标签：学习算法推荐数据挖掘无监督学习

大数据专栏收录该内容

2 篇文章 0 订阅

订阅专栏

摘要：元学习是一种技术，其目的在于理解什么类型的算法解决什么类型的问题。相比之下，聚类是基于对象的相似性把一个数据集划分几个簇，不需要对象类标签的先验知识。本文提出了基于无标签对象特征的提取，使用元学习推荐出聚类算法。基于将要被计算的聚类问题的特征以及不同聚类算法的排序，从而元学习系统对于聚类问题可以精确的推荐出最好的算法。

关键字：聚类，算法推荐，排序，元学习

1.介绍

当今大量的信息被表示和存进行后验分析。研究者开始致力于开发出不同的方法从数据中提取知识；使用这些方法的过程被称之为数据挖掘。当今被各种算法特征化的数据挖掘工具从而能解决每一个数据挖掘任务。然而，这个过程缺少选择最好的算法解决一个给定的数据挖掘问题的指导。

元学习领域以发现哪些问题特征有助于一个更好的或更坏的算法性能，并且以此，为解决一个给定的问题推荐出最适当的算法。为获得这个目标，元学习建立了两个关键的集合：（1）元属性：一类问题的实例的共同特征集合，像对象的数量和二元属性的数量，以及其他的；（2）排序：基于一个性能度量指标，被应用到相同问题的一些算法排序位置的集合。通过这两个集合一个模型被创建，当应用到其他的没有被用做训练的问题时基于被提出的元属性从而推荐出算法的排序。

对于分类任务数据挖掘和元学习之间的联系已经被广泛的研究了。然而，对于聚类任务的研究可得的文献很少。例如，没有研究对于无监督学习问题，例如聚类，哪个特征集最好。

在探讨聚类问题的算法推荐时，执行的实验是基于分类问题相关文献中描述的元属性。尽管如此，这里将选择的特征将不要求类标签的知识，因此基于分类使我们的设计的方法可以泛化到聚类任务。

论文组织如下：第二部分简单的介绍关于元学习的理论背景。第三部分解释了实验中使用的方法并且给出了实验结果。论文在第四部分进行了总结，讨论了实验结果和和我们提出的方法的适应性。

2.元学习

元学习是一个关于学习的学习，例如，应用元学习必须学习机器学习算法的行为以发现最好的算法。在1994年，EU ESPRIT 工程StatLog扩展了这个概念，使算法的性能和对象的特征关联到到分类问题上。

元学习与提取探索元知识的过程紧密相关，从一个算法的学习过程中提取的元知识可以被假设成不同的形式，并且当被应用到一个问题时可以被定义成任何类型的知识。

元知识，也被称做元数据，由元属性和排序组成。元属性是从问题中提取的特征，例如，为了特征化分类问题，StatLog工程基于简单度量、统计学和信息论提出了十六个元属性的集合。排序即是当算法的性能通过一个度量在相同问题上被度量时算法占据的位置，例如，有性能值最好的算法占据了第一个位置，第二个最好的占据了第二个位置，等等。

元算法负责学习元属性和排序间关系，并且使用这个得到的知识计算算法的排序。典型的机器学习算法经常被用作元算法，例如决策树，神经网络，基于实例的学习，以及其他的。

对于元学习系统的概念模型由三个主要模块构造：（1）特征提取模块：提取特征（元属性）负责特征化和相互区分问题；（2）算法评估模块：在给定的问题上使用预先定义的评估度量生成算法的排序；（3）应用模块：使用一个元算法负责算法的排序。

元学习系统的概念模型

3.实验

本文的目的是研究应用元学习技术到聚类问题的适应性，聚类问题可以通过从无标签数据中提取的元属性进行特征化。实验使用来自于相关文献的数据集和为分类问题定义的数据特征预测聚类算法的排序。

3.1数据集

实验使用的问题集合是30个来自UCI机器学习中心的数据集，有缺失值的对象被移除。选择的数据集如下：哈伯曼的存活率、气球、莺尾花、汽车评估、浴室、乳腺癌、啤酒等等。

3.2元属性

目前为止没有固定的工作研究哪些元属性应该被使用以特征化在聚类任务中数据集。聚类算法通常不能使用对象标签的先验信息，本文研究中将要被提取的是无关虑对象的类标签的元属性。

被选择的是基于StatLog和METAL工程以及相关论文的元属性，元属性被规范化到[0, 1]。下表中解释了一个元属性的样本，被选择的元属性是：（1）Log2对象的数量（2）Log2属性的数量；（3）二元属性的比例；（4）离散属性的比例；（5）连续属性的数量；（6）连续属性间的平均绝对相关性；（7）连续属性的平均偏度；（8）连续属性的平均斜度；（9）离散属性间的平均绝对聚集度；（10）离散属性的平均熵。

表1：对于一些数据集的元属性