【笔记】A Generic Multilabel Learning-Based Classification Algorithm Recommendation Method

1.介绍
人们对于数据知识学习有着越来越多的要求,研究者基于不同的假设空间提出了许多学习算法。同时,许多更新、更好的算法也在不断被提出。
但是一些已得出的实验结果表明,没有一种具体的算法,可以很好地适用于于现存的所有学习问题。所以,在实际应用中,对于给定问题,很难决定去选择使用哪种(或哪些)算法。一种最直接的方法就是,将所有备选算法,都应用到同一个问题上,择优选择一个(多个)作为解决这个问题的最优算法。然而,这个想法是不成熟的,会浪费时间而且在备选算法数量很多、算法的时间复杂度很高时这个方法很难付诸实践。因此,找到一个算法自动推荐方法帮助使用者选择合适的算法很有必要。算法自动推荐方法 可以:

(1)理解学习问题(learning problem)的特点是如何影响算法的运行的,然后选择合适的算法高效解决手头的问题,同时节约时间,节省计算资源。

(2)根据学习问题(learning problem)的特点,通过将不同的算法以创新的方式结合起来,创建更好的方法。例如,帮助初学者在升压问题上选择更合适的算法。

算法推荐是基于问题特点和备选算法的运行状况之间的交互性提出的。算法推荐可以看作是元学习的一种应用。也就是说,它是元层次学习问题(meta-level learning problem),它的学习目标(或者说研究对象?)是备选的多种算法在运用到同一给定问题时的相关表现。

本文首先从以下两个关键点区分了不同元层次的学习型算法推荐方法(meta-level learning problem algorithm recommendation methods)

(1)哪种特征可被用于界定给定问题的特点(也就是给问题定性),例如,从元特征角度?

(2)研究对象在元层次的表达形式,比如,元目标,也就是说,怎样去描述给定问题相对应的适用算法。比如说,在已有的算法推荐方法中,一些方法假定对于给定问题,有单一的最优算法。在本文中,元目标就是单一算法的一种形式。另外一些人认为,每一种备选算法都有可能成为最适当的那一个,并对给定问题提供一系列算法。

显然,这次元目标是以一系列算法的形式出现的。这些研究工作都在算法推荐上给我们提供了指导。然而,无论是在理论上还是实际操作中,对于给定问题,都可能会出现多个恰当算法,问题不同,适合的算法数量也不同(详见2.3.3)。因此,算法推荐可以被视作是一种元目标可以以多种算法的形式出现的多标记学习问题( multilabel learning problem)。

受此启发,我们提出了一种新的多标记学习型算法推荐方法,它不仅仅是一种解决算法推荐问题的更合理方法,也是多标记学习的一种拓展应用。
文章接下来的内容是,第二部分提出了一个算法推荐框架,并且从两种dimensions插件的角度区分了不同的推荐方法。第三部分介绍了新的多标记学习型算法推荐方法。第四部分阐明提出的方法在实际运用过程中的表现、状况。第五部分总结。

2.算法推荐框架
算法推荐最早是由Rice正式描述的,之后,这种形式在算法推荐领域得到了广泛应用。在本文中,我们也遵循这种形式。特别是,算法推荐被视作是探究问题特点和算法应用在给定问题上时表现相关性的一种过程。同时利用他们之间的相关性选择合适方法解决新问题。

通过分析现有的算法推荐方法,我们可以看出算法推荐可以被看成是由三个部分组成的学习问题。(1)元数据收集;(2)元数据基础上推荐模型的建立;(3)用已建立模型为新问题提供算法推荐。其中第一点细节展示如下:

(1)元数据收集
从一系列历史问题中和备选算法中收集元数据。每一个元数据的例子都对应一个问题p,例子由两部分组成:元特征和元目标。在这里,元特征是一些从集合 p中得出的具体特征。

(2)推荐模型建立
前一阶段完成的学习目标是一系列性能标准(performance Metrics)。然而我们的目标是建立能够用于选择恰当算法的推荐模型而不是 predicting the absolute性能标准。因此,需要转化成另一种形式:执行状况最佳的(一种)合适算法,或者执行状况都是最佳、没有差别的几种算法。这个步骤的最后,元数据会被转化成一个学习数据库。之后,我们可以在转化后的数据库的基础上,用一种具体的学习算法去建立学习模型。这样就得到了算法推荐模型。

(3)用算法推荐模型解决新问题
算法推荐模型建立后,可以直接为新问题推荐算法。

元特征是从学习问题中收集的一系列 measures,用于uniformly地给不同的问题定性。在算法推荐领域,元特征应该有如下特征:(1)不同的问题有统一的形式;(2)易于计算;(3)与分类算法的性能密切相关。
对于算法推荐而言,问题分类是一项十分具有挑战性的工作,研究者也提出了许多不同的特征来为给种各样的问题进行分类。然而,不存在一种公认的方法可以给不同的问题分类,或是显示出哪种特征比较突出。
介绍五种元特征,细节看附录。

(1) Statistical and Information-Theory-Based Measures
这种方法在算法推荐领域应用得最为广泛。这些方法的突出代表是projects ESPRIT Statlog (1991–1994) and METAL (1998–2001). 这些方法大概包括数据库特点……(These measures generally include such dataset characteristics as number of features, number of instances, number of target concepts, ratio of instances to features, ratio of missing values, ratio of binary features, entropy of the target concept, information gain between the feature and the target concept, and correlation coefficient between
Features.)

(2) Model-Structure-Based Measures
学习问题是用特殊的数据结构表现出来的,可以嵌入问题的复杂性。
在算法推荐领域, induced决策树很有名。

(3) Landmarking-Based Measures
这种算法是在 landmarking概念范围内的,这一想法的提出是在一种假设的基础上——备选算法的表现可以通过一组 simple learners(也叫 landmarkers)的表现被预测,这些 landmarkers的表现(比如说,准确性)被用于去描述一种学习问题(learning problem)。显然这种方法依靠的是landmarker的选择。在实际运用中,应该确保被选择的landmaker在学习机制层面有显著差别。

(4)Problem-Complexity-Based Measures
除了前面所提提到的问题表征方法, the problem-complexity-based measures也用于描述学习问题。在解决学习问题时,通过分析难度来源,他们将重点放在对问题几何复杂度的描述上,同时强调 distributions of the classes的几何特性。 The features reflecting the way in which different classes are separated or interleaved (and being relevant to learning performance) are identified as the measurement of the problem’s complexity. Examples include Fisher’s discriminant ratio, the per- centage of instances in the problem that lie next to the class boundary, and the nonlinearity of linear/nonlinear learning algorithm.

(5) Structural-Information-Based Measures
Song提出了一个新的问题表征方法,来完善算法推荐。这种方法使用structural-information-based 特征向量去描述学习问题,与现今大部分使用的方法都不一样。

算法推荐可以被视作是独立变量是元特征、学习目标是元目标的一种学习问题。元目标代表着推荐算法在问题上的相关性能。相关性能有多种表现形式。如今使用频率较高的是单标签的形式或是排序的算法形式。
本文中,我们假定元目标可以是多标签的形式,因为同一问题可能会存在多种合适算法。元目标形式不同,建立算法推荐模型的方法也不同。下面介绍三种元目标形式:

Single Label.单标签
对于给定问题,性能(也就是应用、运行状况和表现)最好的算法被视作是元目标。也就是说,元目标是单一算法的形式。因此,算法推荐可以被看作是单标签分类问题。理论上讲,所有的单标签学习问题都可以用于建立推荐模型。实际运用中,为了得到更直观易懂的推荐模型, the tree-based or rule-based学习算法应用的更广泛。
除此之外,为了比较已建立推荐模型的性能,会采用一些测量标准,例如,错误推荐的问题比率代表错误率。

Ranking排序
算法排序是一系列已存储数据对于一系列算法的对应。数据排序是在算法对于给定问题的性能指标(performance metrics)的基础上完成的。性能最佳排在首位,性能第二好的次之,接下来也是这样。

因为元目标是一系列排序数值而不是单一数值,所以不可能直接应用单标签推荐算法去建立算法推荐模型。这种情况下,研究者们通常使用 instance-based法或其他衍生方法用于算法推荐。

同时,元目标是一系列算法,推荐给新问题的结果也是排序列表的形式。为了评估新算法的性能,使用了the Spearman Correlation Coefficient这种方法。

对于给定问题,这种算法推荐方法,只提供备选算法的排序。排在序列第一位的算法应当是合适算法。然而,不是所有的备选算法都合适,也不能得知推荐算法的具体数字。而且在实际运用中,使用者可能不会选择排在序列首位的算法,而是自己喜欢的算法。为了弥补种种不足提出了下面的多标签元目标。

Multiple Label多标签
对于给定问题和备选算法,假定有多种算法可以适用于给定问题是合理的,陈述如下:

(1)存在多种算法对于同一问题性能(运行状况)相同,因为问题的内在特性相同。

(2)在实际运用中,很难得到关于给定问题的足够信息,比如问题是否线性可分。除此之外,对于大部分新提出的算法而言,他们的处理能力有待观察。通过问题的性质与算法的处理能力很难选择合适的算法。
因为存在上述问题,所以我们通常选择实验调查,通过设计实验去评估备选算法,择优选择一个作为最合适的算法。然而,仅仅选出性能最好的算法作为合适算法是不够的。因为性能评估通常是基于一个特殊的样本,而不是整个样本空间。

(3)如下实验结果
从以上的讨论中,我们可以相信,实质上,算法推荐更接近与多标签学习问题。因此,多标签classification,可以被用于建立算法推荐模型。除此之外,我们还可以针对不同的推荐方法,借用应用于多标签classification的系统评估标准。这对于我们哪种方法或推荐程序更高效,可以让我们获得知识去找到推荐算法。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值