【MIL】论文阅读与翻译——Neural Networks for Multi-Instance Learning.（2002）

最新推荐文章于 2023-04-24 17:42:17 发布

咖喱星

最新推荐文章于 2023-04-24 17:42:17 发布

阅读量785

点赞数 1

分类专栏：深度学习

本文链接：https://blog.csdn.net/m0_46651960/article/details/107923480

版权

深度学习专栏收录该内容

10 篇文章 0 订阅

订阅专栏

Z.-H. Zhou and M.-L. Zhang.Neural Networks for Multi-Instance Learning. Technical Report, AI Lab, Department of Computer Science & Technology, Nanjing University, Nanjing, China, Aug. 2002.

摘要

多实例学习是Dietterich等人提出的。在他们对药物活性预测的研究中。在这样的学习框架中，训练示例是由实例组成的袋子，任务是通过分析带有已知标签的训练袋子来预测未看见袋子的标签。如果一个包至少包含一个正实例，则为正；如果不包含正实例，则为负。但是，构成训练袋的实例的标签是未知的。在本文中，解决了为神经网络设计多实例修改的开放性问题。详细地，提出了一种称为BP-MIP的神经网络算法，该算法是从流行的BP算法派生而来，它采用了捕获多实例学习性质的新误差函数，即训练包的标签而不是训练的标签实例是已知的。在现实世界和人工基准多实例数据上的实验表明，BP-MIP的性能可与某些完善的多实例学习方法相媲美。

1 Introduction

目前，从实例中学习被认为是最有前途的机器学习方法[19]。根据Maron [16]的观点，有3个框架可供学习。也就是说，监督学习，无监督学习和强化学习。监督学习尝试学习正确标记未见示例的概念，其中训练示例带有标签。无监督学习尝试学习示例基础资源的结构，其中培训示例没有标签。强化学习尝试学习从状态到动作的映射，其中示例没有标签，但奖励延迟，可以将其视为延迟标签。
Dietterich等。 [9]在他们的药物活性预测研究中提出了多实例学习的概念。在多实例学习中，训练集由许多包含许多实例的包组成。如果一个袋子包含至少一个阳性实例，则将其标记为阳性袋子。否则，它被标记为负袋。训练袋的标签是已知的，但是训练实例的标签是未知的。任务是从培训中学习一些知识，以正确标记看不见的袋子。由于这类问题与监督学习，无监督学习和强化学习所解决的问题大不相同，因此，多实例学习被视为从示例中学习的第四框架[16]。
当提出多实例学习的概念时，Dietterich等人。 [9]指出，在这一领域中一个特别有趣的问题是为神经网络设计多实例修改。在本文中，通过提出一种名为BP-MIP的神经网络算法（即用于多实例问题的BP）来解决此开放问题。顾名思义，BP-MIP是从流行的BP算法[23]派生而来，它通过将其误差函数替换为定义为捕获多实例学习性质的新函数（即，训练包的标签而不是训练包的标签）来定义的训练实例是已知的。药物活性预测数据（目前是唯一用于多实例学习的真实世界基准测试数据）和一些人工基准多实例数据的实验表明，BP-MIP获得的结果可与某些完善的多实例方法。
本文的其余部分安排如下。在第2节中，简要介绍了药物活性预测问题。在第3节中，回顾了以前有关多实例学习的著作。在第4节中，介绍了BP-MIP。在第5节中，报告了BP-MIP在现实世界和人工数据上的实验。最后，在第6节中，总结了本文的主要贡献，并指出了一些未来的工作。

2 Drug Activity Prediction

大多数药物都是通过与较大的蛋白质分子（例如酶和细胞表面受体）结合而起作用的小分子。药物的效力取决于结合程度。对于有资格制造药物的分子，其低能量形状之一可以紧密结合到目标区域。尽管对于不合格的分子无法制造药物，但其低能形状都无法与目标区域紧密结合。
在1990年代中期，Dietterich等人[9]研究了药物活性预测的问题。目的是通过分析已知分子的集合，使学习系统具有预测新分子是否有资格制造某些药物的能力。这个问题的主要困难是每个分子可能具有许多其他的低能形状，如图1所示。但是生物化学家只知道一个分子是否有资格制造药物，而不知道它的哪个。替代的低能耗影响了资格认证的反应。
在这里插入图片描述
一个直观的解决方案是通过将有资格使该药物制成的分子的所有低能形状视为正训练实例，而将所有不具有使该药物制成的分子的所有低能形状作为负训练实例来使用监督学习算法。。但是，如Dietterich等所示。 [9]，这种方法几乎行不通，因为可能有很多错误的肯定例子。
为了解决这个问题，Dietterich等。 [9]将每个分子视为一个袋子，并将该分子的其他低能形状视为袋子中的实例，从而制定了多实例学习方法。为了表示形状，将分子放置在标准位置和方向，然后构造一组从原点发出的162射线，以便对分子表面进行大致均匀的采样，如图2所示。代表分子表面氧原子位置的四个特征。因此，袋子中的每个实例都由166维数字特征向量表示。
在这里插入图片描述
基于这样的表述，Dietterich等。 [9]提出了三种Axis-Parallel Rectangle（缩写为APR）算法，该算法试图搜索由特征的结合构成的适当的Axis-parallel矩形。他们的实验表明，迭代分叉APR算法在Musk数据上取得了最佳结果，而Musk数据是迄今为止唯一的用于多实例学习的真实基准测试数据，而流行的监督学习算法（例如C4.5）的性能决策树和BP神经网络非常差。注意Dietterich等。 [9]指出，由于APR算法已针对Musk数据进行了优化，因此，迭代式APR的性能可能是该数据的上限。
应当指出，从药物活性预测中不会突然出现多实例问题。实际上，它们广泛存在于现实应用中[14，24]。但是，不幸的是，直到Dietterich等人为止，机器学习社区才对此类问题没有给予特别的关注。 [9]。

3 Previous Work Review

学习算法，用于学习一类恒定尺寸的几何图案，该模型可同时容忍噪声和概念偏移。后来，对该算法进行了扩展，使其可以处理实值输出[11]。 Long和Tan [15]发起了在多实例学习框架下对平行轴矩形的PAC可学习性的研究。借助P概念[13]，他们表明，如果袋中的实例是从产品分布中独立得出的，则APR是PAC可学习的。他们还描述了多项式时间理论算法。 Auer等。 [3]表明，如果包中的实例不是独立的，则在多实例学习框架下的APR学习是NP难的。此外，他们提出了一种理论算法，该算法不需要产品分配，但样本复杂度比Long和Tan的算法要小。后来，该理论算法被转换为名为MULTINST的实用算法[2]。 Blum和Kalai [5]描述了从多实例学习框架下的PAC学习问题减少到带有随机随机分类噪声的PAC学习的问题。在统计查询模型[12]的帮助下，他们还提出了一种理论算法，其样本复杂度比Auer等人的算法小。高盛等。 [10]提出了一种有效的在线不可知多实例
如上所述，理论机器学习社区为多实例学习做出了很大贡献。但是，由于大多数结果是在诸如袋子中实例数必须为常数之类的假设下获得的，在实际问题中通常并非如此，因此这些结果很难直接用于实际应用中。
幸运的是，应用机器学习社区已经提出了一些用于多实例学习的实用算法，其中最著名的就是Maron和Lozano-Pérez提出的“多样密度算法” [17]。以以下方式定义特征空间中某个点的不同密度：正点袋越多，该点附近的负实例越少，该点的多样性越大。因此，学习任务被转换为在特征空间中以最大的不同密度搜索点。该算法已成功应用于一系列任务。首先是从一系列图像中学习一个人的简单描述[17]，其中图像被视为包，而从图像中采样的子图像被视为相应包中的实例。对于每个图像，如果出现了特定的人，则将相应的袋子正面标记。否则，袋子会贴负标签。第二项任务是选股，即出于根本原因选择股票表现良好[17]。在此任务中，每月收益最高的100只股票被视为一个正袋，而收益最低的5只股票被视为一个负袋，其中该股票被视为实例。第三个任务是自然场景分类[18]，其中将图像视为袋子，而从图像中采样的斑点[18]被视为相应袋子中的实例。如果用户对图像的一部分（例如瀑布）感兴趣，那么将相应的袋子正面标记。否则，袋子会贴负标签。最近，多样密度算法得到了扩展，并应用于基于内容的图像检索[26]。（???）
Wang and Zucker [25]通过采用Hausdorff距离扩展了k-最近邻算法，用于多实例学习。提出了两种算法，即贝叶斯kNN和引文kNN。 Bayesian-kNN通过使用贝叶斯理论分析邻近的袋子来标记袋子。 Citation-kNN借用了科学参考文献的引用概念，它不仅通过分析邻近的袋子，而且还通过分析将相关袋子视为邻居的袋子来标记袋子。 Ruffo [22]提出了一种名为Relic的决策树算法，它是C4.5的多实例版本。后来，Chevaleyre和Zucker [6]导出了ID3-MI和RIPPER-MI，它们是决策树算法ID3和规则学习算法RIPPER的多实例版本，其中的关键是多实例熵和多实例覆盖函数分别。
值得一提的是，Chevaleyre和Zucker [6]指出，某些任务（例如自然场景分类）与自然界中的毒品活动预测完全不同。这是因为在药物活性预测中，袋子的实例是袋子的替代描述，不能同时出现。在自然场景分类中，袋子的实例是袋子不同部分的描述，应同时出现。为了区分这两种情况，Chevaleyre和Zucker [6]创造了术语“多部分学习”的情况，这些情况是袋子的部分描述，而实例是袋子的替代描述的情况。袋。但是，他们指出多部分问题可以通过多实例学习算法来解决[6]。
在多实例学习的早期，大多数工作都是在离散值输出的多实例分类上进行的。最近，具有实值输出的多实例回归开始引起一些研究人员的注意。 Ray和Page [20]表明，多实例回归任务的一般公式是NP-hard，并提出了一种基于EM的多实例回归算法。 Amar等。 [1]扩展了多元密度算法进行多实例回归。此外，他们设计了一些人为生成多回归数据的方法。可从http://www.cs.wustl.edu/~sg/ multi-inst-data /获取其数据集。
多实例学习甚至引起了归纳逻辑编程社区的关注。 De Raedt [8]指出，多实例问题可以看作是归纳逻辑编程的一个偏见。他还建议，多实例范式可能是命题和关系表示之间的关键，比前者更具表现力，比后者更容易学习。 Zucker和Ganascia [28，29]提出了REPEAT，这是一种基于独创性偏见的ILP系统，它首先在多实例数据库中重新构造了关系示例，然后通过多实例学习者得出了最终的假设。
值得注意的是，当Dietterich等人。 [9]创造了多实例学习一词，他们指出，在这一领域中一个特别有趣的问题是为决策树，神经网络和其他流行的机器学习算法设计多实例修改。近年来，已经提出了多实例版本的决策树[6，22]，规则学习算法[6]和惰性学习算法[25]。但是，到目前为止，设计用于多实例学习的神经网络仍然是一个悬而未决的问题。

4 BP-MIP

假设训练集由N个包组成，即{B1，B2，…，BN}，第i个包由Mi个实例组成，即{Bi1，Bi2，…，iiM B}，每个实例都是p维特征向量，例如第i个包的第j个实例是[Bij1，Bij2，…，Bijp] T。正训练包的期望输出为1，而负训练包的期望输出为0。现在假设使用具有p个输入单元和一个输出单元的神经网络从训练集中学习。由于多实例学习的目标是预测看不见的袋子的标签，因此训练集上网络的全局误差可以定义为：（页1）

式（2）表示，如果至少将一个正面训练包的实例完美地预测为正，或者如果将一个负面包的所有实例均完美地预测为负，则所关注袋子的误差为零，且权重为网络将不会更新。否则，将根据该实例的错误来更新权重，该实例的对应实际输出在包中所有实例中最大。注意，这种情况对于正极袋最容易被预测为阳性，而对于负极袋最难以预测为阴性。看起来这对产生正输出负有低负担，但对产生负输出负有沉重负担。但是，正如Amar等。文献[1]指出，一个袋子的价值完全取决于其实例的最大输出量，尽管如此，袋子中有多少个真实的正负实例。因此，实际上产生正或负输出的负担并不是不平衡的。

注意，方程（4）所示的误差函数是在训练实例的级别定义的，而方程（3）所示的误差函数是在训练包的级别定义的。它们在外观上的主要区别在于，方程（3）用包含多实例学习特征的某些术语代替了方程（4）的第二个求和项，即一个正袋包含至少一个正实例，而一个负袋不包含任何正面实例。还值得注意的是，从等式（3）得出的梯度方向与从等式（4）得出的梯度方向是完全不同的。换句话说，在训练袋水平上定义的梯度与在训练实例水平上定义的梯度是不同的。我们认为，这可以解释Dietterich等人的观点，即BP在多实例问题上无法很好地发挥作用[9]。
误差函数如等式（3）所示，可以轻松导出BP-MIP的训练过程，因为它与BP算法几乎相同，除了后者的权重是针对每个训练实例进行更新的，而在前者中每个训练袋的重量都会更新。详细地，在BP-MIP的每个训练时期中，训练包都被逐一馈送到网络。对于袋子Bi，如果已正确预测，则网络中的重量不变。否则，将根据实例的误差修改权重，该实例的相应实际输出为Bi中的最大值。此后，将Bi，j + 1馈入网络，并迭代训练过程，直到全局误差E减小到阈值或训练时期的数量增加到阈值为止。
简而言之，BP根据训练实例修改网络，而BP-MIP根据训练包修改网络。以此方式，BP-MIP捕获了多实例学习的本质，在这种情况下，训练包的标签而不是训练实例的标签是已知的。
请注意，在训练BP-MIP网络时，可以将袋的期望输出（即1表示正，0表示负）替换为0.9表示正，而0.1表示负，这是加快训练过程的技巧[21 ]。当训练有素的BP-MIP网络用于预测时，当且仅当至少在其至少一个实例上网络的输出不少于0.5时，才会对包进行正面标记。

5 Experiment

5.1 Real-world data sets

Musk数据是目前唯一用于多实例学习的真实世界基准测试数据。数据由Dietterich等人生成。按照第2节中所述的方式进行操作。有两个数据集，这两个数据集均可从UCI机器学习存储库[4]中公开获得。表1总结了这两个数据集的信息。请注意，这里有一些不相关的功能，所有实例都是唯一的[9]。
在这里插入图片描述
使用BP-MIP算法训练具有1个输出单元，1个隐藏层和166个输入单元的前馈神经网络，每个输入单元对应于166维特征向量的维。功能单元的激活功能为Sigmoid。学习率设置为0.05。隐藏单元的数量从20到100，间隔为20，而训练时期的数量从50到1,000，间隔为50。
对两个数据集都进行了留一法测试。详细地说，一个袋子用于测试，而其他袋子则用于训练神经网络。以将数据集中的每个包装袋都用作一次测试袋的方式重复进行此过程。换句话说，为每种配置训练的神经网络的数量，即隐藏单元和训练时期的数量，等于数据集中的包数。每种配置的最终结果是针对该配置训练的神经网络的平均结果。
Musk1和Musk2的预测准确性的曲线随训练次数的增加而变化，分别如图3和图4所示。
在这里插入图片描述

图3和图4显示，隐藏单元的数量不会显着影响BP-MIP网络的预测准确性，而训练时期的数量会显着影响预测准确性。实际上，存在明显的趋势，即随着训练时期的数量增加，网络的预测准确性也会增加。由于计算成本的限制，目前我们仅将网络训练到1,000个纪元。但是我们认为，如果对网络进行更多的训练，则可以进一步提高预测准确性。
在图3和图4中，BP-MIP的最佳性能在Musk1上为83.7％，在Musk2上为80.4％，两者都是通过具有80个隐藏单元和950个训练时期的网络获得的。表2将结果与文献报道的结果进行了比较。请注意，表2中未显示标准偏差，因为大多数结果是通过留一法测试获得的，并且此测试方法也没有变化，尽管通常留一法与10倍法之间的差异为不显着[25]。
在这里插入图片描述

表2表明，BP-MIP明显优于MULTINST [2]，并且与Musk1上的Relic [22]相当；它明显优于RIPPER-MI [6]和GFS elim-kde APR [9]，与Musk2上的GFS elim-kde APR [9]相当。
请注意，尽管BP-MIP在预测准确性上仅比某些方法好，而不是所有行之有效的多实例学习方法，但它有其自身的优势。例如，Dietterich等人的APR算法[9]专为Musk数据而设计，而BP-MIP是通用算法，因此其适用性优于APR算法。 Wang和Zucker的扩展kNN算法[25]是一种惰性学习方法，在预测的迭代过程中需要花费大量时间，而BP-MIP在预测上的时间却是微不足道的。 Maron和Lozano-Pérez的“多样密度”算法[17]采用了某些特征选择机制，而BP-MIP尚未执行特征选择，我们相信，如果使用适当的特征选择机制，其性能将会得到进一步改善。更重要的是，BP-MIP易于适应多实例回归问题。
表2还表明，所有多实例学习方法的性能均优于BP和C4.5，这在Musk2上尤其明显，它比Musk1难学习。这一发现支持了Dietterich等人的观点[9]，即传统的有监督学习方法无法解决多实例问题，因为它们没有结合多实例学习的特征。

5.2 Artificial data sets

在多实例学习下进行的先前研究是用于分类的。然而，分子和受体之间的结合亲和力是定量的，其表现为诸如结合时分子-受体对释放的能量之类的量，因此优选结合强度的实值标记。幸运的是，Amar等人。 [1]提出了一种创建人工多实例数据的方法。该方法首先产生人工受体。然后，生成每个袋子具有多个实例的人造分子，每个特征值都被视为当所有分子都处于相同方向时从原点到分子表面的距离。每个功能都有一个比例因子来表示其在绑定过程中的重要性。人工分子与受体之间的结合能基于分子间相互作用的Lennard-Jones势进行计算。
人工数据集被命名为LJ-r.f.s，其中r是相关要素的数量，f是要素的数量，s是用于相关要素的不同比例因子的数量。为了部分模仿Musk数据，某些数据集仅使用不接近1/2的标签（由“ S”后缀表示），并且相关特征的所有比例因子都是在[0.9，1]之间随机选择的。请注意，这些数据集主要用于多实例回归，但也可以通过将实值标签四舍五入为0或1来用于多实例分类。
本文使用了四个人工数据集，即LJ-160.166.1，LJ-160.166.1-S，LJ-80.166.1和LJ-80.166.1-S。每个数据集包含92个袋子。使用BP-MIP算法训练具有一个输出单元，一个具有80个单元的隐藏层和166个输入单元的前馈神经网络，每个输入单元对应于166维特征向量的维。功能单元的激活功能为Sigmoid。学习率设置为0.05。训练时期的数量从50到500不等，间隔为50。
对这些数据集进行留一法测试。预测准确度的曲线随训练次数的增加而变化，如图5所示。
在这里插入图片描述

图5显示了一个明显的趋势，即随着训练时期的数量增加，网络的预测准确性也将增加。如表3所示，将图5中BP-MIP的最佳性能与文献[1]中报告的性能进行了比较，其中报告了预测误差和平方损失。
在这里插入图片描述

表3表明，尽管BP-MIP的性能比Citation-kNN差[25]，但在LJ-P上，它明显优于最著名的多实例学习算法即“不同密度” [17]。 160.166.1和LJ-80.166.1-S。这不仅显示了BP-MIP在多实例回归中的有效性，而且表明在多实例学习方法中BP-MIP的排名可能比表2更好。

6. Conclusion and Future Work

本文提出了一种神经网络算法BP-MIP，它是BP的多实例版本。通过采用新的错误功能，BP-MIP捕获了多实例学习的本质，即训练袋的标签而不是训练实例的标签是已知的。在现实世界和人工基准多实例数据上的实验表明，BP-MIP的性能可与某些公认的多实例学习方法相媲美。这解决了Dietterich等提出的开放问题。 [9]，即为神经网络设计多实例修改。
Maron [16]指出，从训练集的歧义性的角度来看，多实例学习应该放在监督学习（其训练集没有歧义）和无监督学习（其训练集具有最大歧义）之间。由于一些流行的监督学习算法可以适用于多实例学习，例如一些研究人员在决策树上的工作[6，22]，规则学习算法[6]，懒惰学习算法[25]以及我们在神经网络上的工作在本文中，我们认为多实例学习应该比无监督学习更靠近监督学习。
BP-MIP的一个优点是它是一种通用算法，尚未针对任何数据进行优化，这意味着它可以轻松应用于基于内容的图像检索等应用程序。发现更多现实世界中的多实例问题并将BP-MIP应用于它们是未来工作中另一个有趣的问题。注意，将BP-MIP应用于实际问题时，通过实验选择适当的配置（即隐藏单元的数量和训练时期）以实现最佳性能并不是很可行。因此，一项重要的工作是开发一些机制来估计针对具体问题的BP-MIP的适当配置。
此外，由于许多算法在多实例问题上都能很好地工作，例如迭代法APR [9]和Diverse Density [17]，都内置了特征选择方案，因此探索BP-MIP的性能是否可以借助功能选择可显着改善。
此外，最近的研究表明，神经网络集成可以显着提高基于神经网络的学习系统的泛化能力，这已成为机器学习和神经网络社区中的热门话题[27]。因此，有趣的是，是否可以通过BP-MIP网络的集成获得更好的结果。

咖喱星

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
【MIL】论文阅读与翻译——Neural Networks for Multi-Instance Learning.（2002）

Z.-H. Zhou and M.-L. Zhang.Neural Networks for Multi-Instance Learning. Technical Report, AI Lab, Department of Computer Science & Technology, Nanjing University, Nanjing, China, Aug. 2002.摘要多实例学习是Dietterich等人提出的。在他们对药物活性预测的研究中。在这样的学习框架中，训练示例是由实例组成
复制链接

扫一扫

专栏目录