【MIL】论文阅读与翻译——Ensembles of multi-instance learners.(2003)

Z.-H. Zhou and M.-L. Zhang. Ensembles of multi-instance learners. In: Proceedings of the 14th European Conference on Machine Learning (ECML’03), Cavtat-Dubrovnik, Croatia, LNAI 2837, 2003, pp.492-502.

Abstract:

在多实例学习中,训练集包括由未标记实例组成的标记袋,任务是预测未看见的袋的标记。通过对两种著名的多实例学习算法的分析,表明许多监督学习算法都可以适用于多实例学习,只要它们的重点从实例的区分转移到袋子的区分即可。此外,考虑到整体学习范式可以有效地增强有监督学习者的能力,本文提出建立多实例学习者集合体来解决多实例问题。实际基准测试的实验表明,集成学习范例可以显着增强多实例学习者,并且EM-DD集成获得的结果超过了文献报道的基准测试的最佳结果

1 Introduction

  术语“多实例学习”是Dietterich等人提出的。 [11]当他们调查药物活性预测问题时。在此学习框架中,训练集由许多袋子组成,每个袋子包含许多实例。如果一个袋子包含至少一个肯定的实例,则该袋子带有正面标签。否则,它会带有负号。任务是从训练袋中学习一些概念,以正确标记看不见的袋子。这项任务非常困难,因为与监督学习不同,在监督学习中标记了所有训练实例,此处各个实例的标签是未知的。研究表明,忽略多实例学习特征的学习算法在这种情况下无法很好地工作[11]。
  许多研究人员已经研究了多实例学习的PAC可学习性[2] [3] [5] [13],并且得出了一些重要的结果,例如“如果书包中的实例不是独立的,那么APR(Axis-多实例学习框架下的“平行矩形”学习[11]是NP-hard’[3]。目前,最著名的多实例学习算法是Diverse Density [14],该算法已应用于包括股票预测[14],自然场景分类[15]和基于内容的图像检索[20]等多种应用。还有许多其他实用的算法,例如Citation-kNN [18],Relic [17],ID3-MI [8],RIPPER-MI [8],EM-DD [21],BP-MIP [23],最近,开始研究具有实值输出的多实例回归[1] [16]。值得注意的是,多实例学习也引起了ILP社区(ILP:归纳逻辑程序设计)的关注。有人提出,多实例问题可以看作是归纳逻辑编程的偏向,而多实例范式可能是命题表示和关系表示之间的关键,比前者更具表现力,比它容易学习。后者[9]。
  本文分析了两种著名的多实例学习算法,即Diverse DensityCitation-kNN,这表明许多监督学习算法都可以适用于多实例学习,只要它们试图区分包而不是实例。然后,考虑到训练多个学习者解决问题的集成学习范式可以有效地提高监督学习的泛化能力[10],因此本文提出构建多实例集合来解决多实例问题。实际基准数据集上的实验表明,集成学习范例可以显着增强当前的多实例学习者。此外,可以观察到,特定的多实例学习者(即EM-DD)的合奏在基准测试中展现了迄今为止最好的性能。
  本文的其余部分安排如下。第2部分分析了多样性密度算法和Citation-kNN算法。第3节建议构建多实例集合。第4节介绍了实验结果。最后,第5节总结了本文的贡献。

2 Adapt Supervised Algorithms to Multi-Instance Learning

  当提出多实例学习的概念时,Dietterich等人。 [11]提出了一个开放的问题,即为流行的机器学习算法设计多实例修改。实际上,近年来已经开发了许多机器学习算法的多实例版本[8] [17] [18] [23]。但是,没有通用的规则指出如何进行这种修改。
  通常,监督学习算法的重点是区分实例,这是可行的,因为所有训练实例都在监督场景中标记。但是在多实例学习中,通过区分训练实例来构建模型是不可行的,因为没有实例标记出来。此外,如果将一个袋子的标签简单地视为其实例的标签,即认为正袋仅包含正例,而负袋仅包含负例,那么尽管每个训练实例都具有一个正例,但学习任务可能会非常困难。立即贴上标签。如[11]所示,这是因为正噪声可能极高1。因此,在监督学习和多实例学习之间的主要区别在于是否可以区分训练实例
  在本节中,我们声称,许多监督学习算法都可以适用于多实例学习,只要它们将重点从对实例的区分转移到对袋子的区分即可。我们举例说明了两种著名的多实例学习算法2i.e.根据我们的要求,可以从标准贝叶斯分类器和k最近邻算法推导出不同密度和引文kNN。选择这两种算法进行分析是因为“多样密度”是目前最著名的多实例学习算法,而Citation-kNN在EM-DD之前的现实世界多实例基准测试[18]上取得了最佳结果。提出了“多样密度”。

2.1 Diverse Density

  多样密度算法[14]将每个袋子视为一个流形,它由许多实例(即特征向量)组成。如果一个新的袋子是阳性的,则认为它与所有阳性特征流形相交而不与任何阴性特征流形相交。直观地,将特征空间中某个点的不同密度定义为度量在该点附近有多少个不同的正袋以及这些点距负点有多远的度量。因此,将多实例学习的任务转换为在特征空间中以最大多样性密度搜索点。
  显然,“多样密度”算法的关键在于最大多样性密度的形式定义,这是该算法要优化的目标。下面我们显示可以通过根据规则修改标准贝叶斯分类器来实现这样的定义,即将焦点从区分实例转移到区分包。
  给定要预测的数据集D和一组类别标签,即C = {c1,c2,···,ct},可以根据等式中所示的贝叶斯规则估计该类别的后验概率。 1。
  
  我们想要的是具有最大后验概率的类别标签,如等式2所示。 2,其中Obj表示目标。
  
  考虑到Pr(D)是可以被丢弃的常数,并且如果我们假设均一的先验,则Eq也可以被丢弃。 2可以简化为等式。 3。
  
  等式当目标是区分实例时,3就足够了。但是对于区分袋子,考虑D = {B + 1,···,B + m,B−1···,B- n}很有帮助,其中B +表示第i个正袋子,而B−表示袋子。第j个底片袋。然后,等式3可以重写为等式。 4假设袋子有条件地独立。
  
  现在将贝叶斯规则应用于等式。 4,我们得到等式。 5,
  
  考虑到Q1≤i≤mPr¡B+ i¢Q1≤j≤nPr¡B− j¢是可以被降低的常数,并提醒可以像在等式中所做的那样降低Pr(ck) 。 3,因为我们假设先验统一,则等式。 5可以简化为等式。 6。
  
  等式图6是具有最大后验概率的类别标签的一般表达式。具体地说,特征空间中特定点x的类标签可以表示为Eq。 7,其中(x = ck)表示x的标签为ck。
  
  如果我们想在特征空间中找到一个点,其中特定类别标签的最大后验概率(例如ch)最大,则可以根据等式定位该点。 8。
  
  有趣的是8既不大于也不小于最大密度的形式定义,该形式由“多样密度”算法优化[14]!
在这里插入图片描述
(图片太大传不上来…markdown里面的图片怎么自动把我竖向的转成横向的了…晕,还不知道要怎么才能转回来)

2.2 Citation-kNN

  Citation-kNN算法[18]是一种最近邻样式算法,它借用科学参考文献的引用方式,即不仅通过分析其相邻袋子,而且还通过分析将相关袋子视为袋子的袋子来标记袋子。邻居。
  然而,很明显,对于任何最近的邻居样式算法,关键在于距离度量的定义,该距离度量用于测量不同对象之间的距离。下面我们显示,可以通过根据规则修改标准的k最近邻算法来实现Citation-kNN的关键,即最小Hausdorff距离(the minimum Hausdorff distance)的定义,即将焦点从区分实例转移到区分袋子
  在标准的k近邻算法中,每个对象或实例都被视为特征空间中的特征向量。对于两个不同的特征向量,即a和b,它们之间的距离可以写为Eq。 9.通常,将ka-bk表示为欧几里得距离。
  
  当目标是区分实例时,等式。 9足以实例化。但是,如果目标是区分袋子,则等式。必须扩展9,因为现在我们应该测量不同袋子之间的距离。
  假设我们有两个不同的袋子,即A = {a1,a2,···,am}和B = {b1,b2,···,bn}其中ai(1≤i≤m)和bj(1≤j ≤n)是实例。显然,可以将它们视为两个特征向量集,其中每个ai(1≤i≤m)或bj(1≤j≤n)是特征空间中的特征向量。因此,测量不同袋之间的距离的问题实际上是测量不同特征向量集之间的距离的问题
  在几何上,特征向量集可以看作是一组包围在特征空间轮廓中的点。因此,测量两个特征向量集之间距离的一种直观方法是将它们的距离定义为它们最近的特征向量之间的距离,如图1所示。
在这里插入图片描述

  正式地,这样的距离度量可以写为等式。 10。
  
  有趣的是10既不小于也不小于最小Hausdorff距离的正式定义,Citation-kNN算法使用该最小距离来测量不同袋子之间的距离[18]!
  注意,尽管Wang和Zucker承认使用最小Hausdorff距离确实可以使k最近邻居算法适用于多实例学习,但他们也指出这是不够的[18]。这是因为在某些情况下,k近邻算法采用的通用预测生成方案(即多数投票)可能会与肯定包中的假阳性实例混淆。因此,如前所述,为了获得最佳性能,引入了引用和参考的概念
  但是,很明显,引用和引用概念的使用不会改变以下事实:最小的Hausdorff距离是使k最近邻算法适合于多实例学习的关键。这是因为还可以引入引用和引用的概念,以提高处理监督学习任务的k近邻算法的性能。更重要的是,即使引用和引用的概念有助于采用多距离场景(例如欧几里得距离)的k最近邻算法也无法在多实例情况下工作。尽管采用最小Hausdorff距离的k最近邻算法即使在没有引用和参考的情况下也可以在多实例场景中使用。(欧几里得距离与minumun haisdroff distance距离的适用与citation reference无关)
  实际上,通过分析Wang和Zucker论文的附录中提供的实验数据[18],可以发现,当k为3时,采用最小Hausdorff距离的k最近邻算法的性能无需引用和引用即可已与Musk1上的Relic [17]和MULTINST [2],以及Musk2上的RIPPER-MI [8]和GFS elim-count APR [11]等多实例学习算法相当甚至更好。此外,如果考虑到正袋的发生率远小于负袋的发生,以便在确定其标签时出现领带时对新袋进行负标记,则采用最小的k最近邻算法的性能当k为2时,在不使用引用和引用的情况下,Hausdorff距离在Musk1上分别为90.2%,在Musk2上为82.4%。有趣的是,这达到了另一种多实例k最近邻算法即Bayesian-kNN的最佳性能。由Wang和Zucker提出[18]。

3 Multi-Instance Ensemble

  集成学习范式训练基础学习者的多个版本来解决问题。由于合奏通常比单个学习者更准确,因此在监督学习中最活跃的研究领域之一就是研究构建良好合奏的范例[10]。
  既然我们在第2节中已经表明许多监督学习算法可以适用于多实例学习,因此一个令人振奋的想法是查看集成学习范例是否可以用于增强多实例学习者。在这里,我们将多实例学习者的集合称为多实例集合
  在过去的几年中,已经开发了多种集成学习算法,例如Bagging [6],Arc-x4 [7],AdaBoost [12],MultiBoost [19],GASEN [22]等。在本节中,我们使用一种相对简单的算法(即Bagging)来构建多实例集合
  Bagging使用bootstrap抽样从原始训练集中生成多个训练集,然后从每个生成的训练集中训练组件学习器,即基础学习器的多个版本。组成学习者的预测通过多数表决进行组合。 Bagging算法如表1所示,其中从训练集S生成T个自举样本S1,S2,···,ST和从每个St训练出的分量学习器Ltis,从L1,L2··建立一个整体L *。 LTwhose的输出是获得最多票数的类别标签,x是输入要素向量,Y是类别标签的集合。
在这里插入图片描述

  我们尝试为四个不同的基础学习者构建多实例合奏,即迭代法则APR [11],多样密度[14],Citation-kNN [18]和EM-DD [21]。在第2节中讨论了选择“不同密度和引文kNN”的原因。在这里,我们简要解释为什么选择其他两种算法。
  迭代discrim APR是Dietterich等人提出的最佳Axis-Parallel Rectangle(缩写为APR)算法。 [11],它试图搜索由特征的结合构成的适当的轴平行矩形。 Dietterich等。 [11]指出,由于APR算法已针对Musk数据(即迄今为止唯一的现实世界中的多实例基准数据)进行了优化,因此迭代法APR的性能可能是该基准测试的上限。
  EM-DD [21]是多实例学习的最新发展,它结合了EM和多样密度算法。通过使用EM估计负责包装袋标签的实例,它将多实例问题转换为单实例设置。到目前为止,该算法在现实世界中的多实例基准测试中具有最佳性能,即在Musk1上的预测错误率低至3.2%,在Musk2上的预测错误率低至4.0%[21]。请注意,EM-DD的性能已经超出了Dietterich等人预期的基准测试的上限。 [11]。

4 Experiments

  实验是在Musk数据上进行的,该数据是目前针对多实例学习者的唯一实际基准测试数据。
  Musk数据来自Dietterich等人的药物活性预测研究[11]。在这里,每个分子都被视为袋子,其替代的低能形状被视为袋子中的实例。阳性袋对应于有资格制造某种药物的分子,也就是说,其低能形状中的至少一个可以紧密结合某些较大的蛋白质分子(例如酶和细胞表面受体)的目标区域。负袋对应于不符合制造某种药物资格的分子,也就是说,其低能形状均不能紧密结合目标区域。
  为了表示形状,将分子放置在标准位置和方向,然后构造一组从原点发出的162射线,以便对分子表面进行近似均匀的采样。还有四个特征代表了氧原子在分子表面的位置。因此,袋子中的每个实例都由166个连续属性表示。
  有两个数据集,即Musk1和Musk2,这两个数据集均可从UCI机器学习存储库[4]中公开获得。 Musk1包含47个正袋和45个负袋,每个袋中包含的实例数为2至40。Musk2包含39个正袋和63个负袋,并且每个袋中的实例数范围为1至1,044。表2中列出了有关Musk数据的详细信息。
  对每个Musk数据集执行十倍交叉验证。在每一次折叠中,都使用Bagging为四个基础的多实例学习者中的每个学习者建立合奏,即迭代法APR,多样密度,Citation-kNN和EM-DD。每个集合包括基础学习者的五个版本。表3中显示了合奏的预测错误率。为进行比较,文献[11] [14] [18] [21]中报告的单个多实例学习者的最佳结果也包括在表3中。
在这里插入图片描述

  表3表明Bagging可以显着提高所有研究的多实例学习者的泛化能力。3令人印象深刻的是,即使是最强大的多实例学习者,即EM-DD,也可以通过这种相对简单的集成学习算法来增强。实际上,EM-DD集成在这两个Musk数据集上均达到了最佳性能,即Musk1的预测错误率为3.1%,Musk2的预测错误率为3.0%。
  由于建立多实例学习者的集合的过程没有适合任何特定数据,因此我们认为这种范例可以应用于任何多实例问题。可以合理地预期,如果没有一个单一的多实例学习者能够很好地工作,那么这种范式可能会在棘手的问题上获得更多的收益。此外,本节中报告的实验还建议在更多的场景中研究集成学习范式,而不受限于监督学习。

5 Conclusion

  当正式定义多实例学习的概念时,Dietterich等人。 [11]提出了一个开放的问题,即为流行的机器学习算法设计多实例修改。尽管近年来已经开发了许多机器学习算法的多实例版本,但是到目前为止,还没有通用的规则表明如何进行这种修改。
  本文认为,许多监督学习算法可以通过将其重点从实例辨别转移到袋子判别上来适应多实例学习。尽管具体的转换过程取决于有关的监督学习算法的工作机制,但是自适应规则是可行的,并且通用到足以应用于各种监督学习算法。例如,本文说明了如何通过转移焦点来分别从标准贝叶斯分类器和k最近邻算法推导两种著名的多实例算法,即Diverse Density和CitationkNN
  设计具有广泛泛化能力的多实例学习算法始终是该领域的重要问题。考虑到许多监督学习算法可以适应多实例学习,并且集成学习范式可以有效地增强有监督学习者的学习能力,因此本文提出构建多实例集合来解决多实例问题。
  实验表明,可以通过一个相对简单的集成学习算法来增强所有被研究的多实例学习者,并且通过EM-DD集成可以实现迄今为止在多实例学习者的实际基准测试中的最佳结果。实验不仅支持我们的观点,即建立多实例集成是解决多实例问题的一个不错的选择,而且还建议对集成学习范式进行更多的研究,而不受限于监督学习。

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值