【MIL】论文阅读与翻译——Multi-instance learning: A survey.（2004）

最新推荐文章于 2024-01-15 20:43:24 发布

咖喱星

最新推荐文章于 2024-01-15 20:43:24 发布

阅读量1.1k

点赞数 1

分类专栏：深度学习

本文链接：https://blog.csdn.net/m0_46651960/article/details/107964151

版权

深度学习专栏收录该内容

10 篇文章 0 订阅

订阅专栏

Z.-H. Zhou. Multi-instance learning: A survey. Technical Report, AI Lab, Department of Computer Science & Technology, Nanjing University, Nanjing, China, Mar. 2004.

Abstract

在多实例学习中，训练集包括由未标记实例组成的标记袋，任务是预测未看见的袋的标记。本文对此主题进行了调查。首先，它介绍了多实例学习的起源。然后，回顾了关于可学习性，学习算法，多实例学习的应用和扩展的研究进展。特别是，本文采用统一的观点来研究多实例学习算法。还讨论了一些要解决的重要问题。

1 Introduction

在过去的几年中，从示例中学习是机器学习中最繁荣的领域之一。根据训练数据的含糊性，可以将这一领域的研究大致分为三个学习框架，即监督学习，无监督学习和强化学习[16]。监督学习尝试学习正确标记未见实例的概念，其中训练实例带有已知标签，因此歧义最小。无监督学习尝试学习实例基础资源的结构，其中训练实例没有已知标签，因此歧义最大。强化学习尝试学习从状态到动作的映射，其中实例没有标签，但是延迟的奖励可以被视为延迟的标签，因此模糊性介于监督学习和无监督学习之间。
术语“多实例学习”是Dietterich等人提出的。 [10]当他们调查药物活性预测问题时。在多实例学习中，训练集由许多袋子组成，每个袋子包含许多实例。如果一个袋子至少包含一个阳性实例，则该袋子带有正面标签；否则，它被标记为负袋。任务是从培训中学习一些概念，以正确标记看不见的袋子。
与所有训练实例都带有已知标签的监督学习不同，在多实例学习中，训练实例的标签未知。与所有训练实例都没有已知标签的无监督学习不同，在多实例学习中，训练包的标签是已知的；与强化训练实例标签延迟的强化学习不同，在多实例学习中没有任何延迟。研究表明，忽略多实例问题（例如流行的决策树和神经网络）特征的学习算法在这种情况下无法很好地工作[10]。
由于多实例问题广泛存在，但对于以前的学习框架所解决的问题来说是唯一的，因此多实例学习被视为一种新的学习框架[16]，并引起了机器学习社区的广泛关注。由于在多实例学习方面已经取得了许多进展，因此对此主题进行调查似乎很有用，这就是本文的目的。
本文的其余部分安排如下。第2节介绍了多实例学习的起源。第三部分对多实例学习的可学习性进行了分析。第四部分从监督的角度探讨了多实例学习算法。第5节和第6节分别介绍了多实例学习的应用和扩展。最后，第7节讨论了该领域要解决的几个问题。

2 Drug Activity Prediction

在1990年代中期，Dietterich等人。 [10]研究了药物活性预测的问题。目的是通过分析已知分子的集合，使学习系统具有预测新分子是否有资格制造某些药物的能力。
大多数药物都是通过与较大的蛋白质分子（例如酶和细胞表面受体）结合而起作用的小分子。对于有资格制造药物的分子而言，其低能形状之一可以与目标区域紧密结合。而对于没有资格制造药物的分子，其低能形状都无法与目标区域紧密结合。药物活性预测的主要困难在于，每个分子可能具有许多其他的低能形状，如图1所示，但是目前的生物化学家只知道一个分子是否有资格制造药物，而不是知道哪种低能耗的能源可影响资格认证的反应。
在这里插入图片描述

一种直观的解决方案是通过将“好”分子的所有低能形状视为正训练实例，而将所有“坏”分子的所有低能形状视为负训练实例来利用监督学习算法。但是，如Dietterich等所示。 [10]，这种方法由于高假正噪声而几乎不起作用，这是由于“好”分子可能具有数百个低能形状，但也许其中只有一个确实是“好”形状。
为了解决这个问题，Dietterich等。 [10]将每个分子视为一个袋子，并将该分子的其他低能形状视为袋子中的实例，从而制定了多实例学习方法。为了表示形状，将分子放置在标准位置和方向，然后构造一组从原点发出的162射线，以便对分子表面进行大致均匀的采样，如图2所示。代表分子表面氧原子位置的四个特征。因此，袋子中的每个实例都由166维数字特征向量表示。
在这里插入图片描述

Dietterich等。 [10]提出了三个轴平行矩形（简称为APR）算法来解决药物活性预测问题，该算法试图搜索通过特征结合而构造的适当的轴平行矩形。 GFS elim-count APR算法1.首先确定一个从肯定袋中覆盖所有实例的APR。然后，它2.通过从消极袋中贪婪地消除实例来逐渐缩小APR。 Dietterich等人的论文[10]很好地说明了这一过程，如图3所示，其中白点和暗点分别代表正极袋和负极袋的实例，不同形状代表不同的袋，初始APR用实线表示。对于本地袋子中的每个实例，该算法计算必须从APR中排除的阳性袋子中的最小实例数，以便将相关实例从阴性袋子中排除。在图3中，这些计数显示在细线旁边，这些细线指示应收缩APR的哪一侧，以便将该实例从底袋中排除。该算法反复选择从负数袋中消除实例，该实例最容易消除，直到消除所有此类实例。所得的APR在图3中用虚线表示。然后，该算法通过贪婪特征选择确定相关特征的边界，从而获得最终的APR。
在这里插入图片描述

GFS kde APR算法和GFS elim-count APR算法之间的差异主要在于以下事实：前者不仅仅计算必须从正数袋中排除的实例数，以便从负数袋中排除实例。取而代之的是，GFS kde APR考虑初始APR涵盖的来自不同阳性袋的实例数量，并使用成本函数控制从阴性袋中消除实例的过程，以便每个阳性袋在APR中至少保留一个实例。迭代判别式APR算法采用贪婪反拟合算法来识别一个APR，该APR覆盖了每个阳性袋中的至少一个实例。然后，它利用此APR选择最有区别的功能。最后，利用内核密度估计来通过扩展APR的范围来帮助改善泛化性，因此，从正袋中提取的新实例很有可能落入APR内。
Dietterich等人的实验[10]表明，迭代识别APR算法在Musk数据[6]上取得了最佳结果，该数据是药物活性预测的具体测试数据，也是多实例中使用最广泛的基准学习。值得一提的是Dietterich等。 [10]指出，由于迭代法APR算法已针对Musk数据，其性能可能是该数据集的上限。
注意，从药物活性预测中不会突然出现多实例问题。实际上，它们广泛存在于现实应用中[14] [32]。但是不幸的是，直到Dietterich等人才对这些问题的独特性进行特别的区分。 [10]。

3 Learnability

Long and Tan [15]在多实例学习框架下启动了APR PAC可学习性的研究。他们表明，如果袋中的实例是从产品分布中独立得出的，则APR是PAC可学习的。 Auer等。 [5]表明，如果包中的实例不是独立的，则在多实例学习框架下的APR学习是NP难的。此外，他们提出了一种理论上的算法，该算法不需要产品分配，但样本复杂度比Long和Tan的算法要小，后来又转化为实用的算法MULTINST [4]。 Blum和Kalai [7]描述了从多实例学习框架下的PAC学习减少到带有随机随机分类噪声的PAC学习。他们还提出了一种理论算法，其样本复杂度比Auer等人的算法[5]小。
表1总结了这些工作，其中（1-†）和δ代表准确性和置信度，d和n代表APR尺寸和袋子中实例的数量。在此，O表示已包含对数项。
在这里插入图片描述

值得注意的是，所有这些结果都是在强有力的假设下获得的，例如袋子中实例的数量应该是恒定的，实例应该是独立的。不幸的是，这些假设在现实世界中的问题中很少得到满足。例如，不同分子具有相同数量的低能形状并不是事实，并且假设同一分子的不同低能形状是完全独立的也是不合理的。此外，所有理论分析都集中在APR学习上。尽管在过去的几年中已经提出了许多有效的多实例学习算法，但是目前看来在PAC框架下很难对这些学习算法进行分析。尽管如此，这些工作丰富了计算学习理论的研究范围，并揭示了一些有关设计多实例学习算法的见解。例如，Blum和Kalai [7]指出，任何使用统计查询的学习者都可以在i.i.d下学习多实例概念。假设。

4 Learning Algorithm

根据Dietterich等。 [10]，已经开发了许多多实例学习算法，主要包括多元密度[17]，引文kNN和贝叶斯kNN [21]，遗物[20]，ID3-MI和RIPPER-MI [8]，EM -DD [25]，BP-MIP [29] [27]，MI内核[11]，MI SVM [3]和多实例集成[30]。对所有这些学习算法进行详细描述似乎不明智。取而代之的是，本文尝试通过统一的视角对其进行研究，这可能有助于掌握这些多实例学习算法的本质。
一般而言，受监督学习者的重点是区分实例，这是可行的，因为所有训练实例都在受监督场景中标记。但是在多实例学习中，即使不是不可行的，也很难区分训练实例，因为没有实例被标记。此外，如果简单地将包的标签视为其实例的标签，也就是说，认为正包仅包含正实例，而负包仅包含负实例，则尽管每个训练实例都可能非常困难的学习任务现在持有标签。如Dietterich等人所述，这是因为正噪声可能非常高。 [10]。因此，监督学习与多实例学习之间的主要区别在于是否可以区分训练实例。
实际上，几乎所有当前的多实例学习算法都是根据通用规则从监督学习算法进行修改的，即，将监督学习算法的重点从对实例的区分转移到对袋子的区分。大多数多实例学习算法的作者都隐式地使用了此规则，他们已经找到了有效的方法，可以在不同类型的受监督学习者上实质化该规则。下面，我们使用这种统一的监督视图来检查多样化密度，Citation-kNN，ID3-MI，RIPPER-MI和BP-MIP。

4.1 Diverse Density

多样密度算法[17]将每个袋子视为一个流形，它由许多实例（即特征向量）组成。如果一个新的袋子是阳性的，则认为它与所有阳性特征流形相交而不与任何阴性特征流形相交。直观地，将特征空间中某个点的不同密度定义为度量在该点附近有多少个不同的正袋以及这些点距负点有多远的度量。如图4所示，来自Maron和Lozano-Pérez的论文很好地说明了这种启发式方法。因此，将多实例学习的任务转换为在具有最大多样性密度的特征空间中寻找点。
在这里插入图片描述

显然，“多样密度”算法的关键在于最大多样性密度的形式定义，这是该算法要优化的目标。下面我们展示了如何通过根据规则修改标准贝叶斯分类器来实现这种定义，即将焦点从区分实例转移到区分袋子。
（剩余部分与【Muti-instance Learning 】论文阅读与翻译——Ensembles of multi-instance learners.（2003）类似，看笔记Diverse Density）

4.2 Citation-kNN

Citation-kNN [21]是最近邻算法，它借用了引用和科学文献参考的概念，通过不仅分析邻近的袋子，而且还分析了将相关袋子视为邻居的袋子来标记袋子。。
显然，对于任何最近的邻居样式算法，关键在于距离度量的定义，该度量用于测量不同对象之间的距离。下面我们展示了如何通过根据规则修改标准的k最近邻算法来实现Citation-kNN使用的距离度量（即最小Hausdorff距离），即将焦点从区分实例转移到区分袋子。
在标准的k近邻算法中，每个对象或实例都被视为特征空间中的特征向量。对于两个不同的特征向量，即a和b，它们之间的距离可以写为Eq。 9.通常，将ka-bk表示为欧几里得距离。
（剩余部分与【Muti-instance Learning 】论文阅读与翻译——Ensembles of multi-instance learners.（2003）类似，看笔记Citation-kNN）

4.3 ID3-MI

ID3-MI [8]是一种决策树算法，遵循流行决策树的“分而治之”的方式，即训练数据落入树节点将被拆分为不同的子节点，除非相关节点上的几乎所有数据都属于该子节点如果不考虑修剪，请选择同一类。
粗略地说，决策树算法具有两个重要组成部分，即如何选择测试以拆分树节点以及如何使用树进行预测的策略。由于ID3-MI算法几乎与标准决策树一样进行预测，即，看不见的袋子的标签由袋子所落入的叶子节点的标签确定，因此很明显，其关键在于形式定义多实例熵，即ID3-MI用于选择候选测试以拆分树节点的标准。下面我们展示如何通过根据规则修改标准决策树来实现这样的定义，即将重点从区分实例转移到区分袋子。
给定包含p个正实例和n个负实例的数据集D，与分类相对应的D的熵表示为等式。 11。

假设选择了属性A作为测试，将D划分为{D1，D2，…，Dl}，则用A划分后的D的熵表示为Eq。 12，| D |和| Di |分别表示D和Di中包含的实例数。

然后，根据等式计算A对D的信息增益。 13

等式当目标是区分实例时，13足以为决策树选择适当的测试。但是为了区分袋子，有必要计算阳性袋子和阴性袋子的数量，而不是D和Di中包含的阳性实例和阴性实例的数量。

令π（X）和ν（X）分别表示数据集X中包含的正袋和负袋的数量。然后，在方程式中显示了在袋级别定义的A划分之前和之后D的熵。 14和等式15，分别。

然后根据等式计算在袋级别定义的A对D的信息增益。 16。

等式16正是Chevaleyre和Zucker的论文[8]中使用的多实例熵的正式定义。请注意，尽管多实例熵能够构建多实例决策树，但是在决策树学习器中直接实现它可能会导致复杂的树。因此，ID3-MI采用了稍微修改的分而治之的方式，即当正袋中的一个实例被所诱导的树肯定地分类时，将袋中所有其他实例从训练集中删除。 Chevaleyre和Zucker [8]指出，这种方案可以帮助生成相对简单的树。

4.4 RIPPER-MI

RIPPER-MI [8]是一种规则归纳算法，它遵循流行的规则归纳法的“分而治之”的方式，即，规则被一个接一个地归纳，并且在规则建立后，规则所覆盖的所有训练数据都将被删除。
通常，规则在增长的数据集上生长，然后在修剪的数据集上修剪，表达该规则覆盖的实例数的coverage定义非常重要，无论规则是在增长还是修剪。详细地说，当规则正在增长时，可以将规则条件重复添加到规则中，直到规则不覆盖正在增长的数据集中的否定实例为止。修剪规则时，可以从规则中反复删除规则条件以最大化某些评估功能，例如等式1中所示。 17，其中p和n分别表示规则覆盖的修剪数据集中的正例和负例的数量。

由于RIPPER-MI及其相应的受监督学习者（即RIPPER）之间的唯一区别在于覆盖率的定义，因此很明显，RIPPER-MI的关键在于多实例覆盖率的正式定义，即所使用的功能由RIPPER-MI来衡量规则的覆盖范围。下面我们展示了如何通过根据规则修改标准规则诱导器来实现这样的定义，即将焦点从区分实例转移到区分袋子。
给定数据集D，可以将规则R的覆盖范围衡量为等式。在图18中，其中Cover（R，instancei）表示D中的第i个实例被R覆盖，也就是说，如果instancei也被视为规则，则R比instancei更通用。

等式当目标是区分实例时，18就足够了。但是为了区分袋子，必须扩展覆盖范围。为此，我们应定义在哪种情况下规则R可以认为包被覆盖。在图19中，那么在行李级别的覆盖功能将显示为等式。 20，其中bagi表示D中的第i个包。

等式20正是Chevaleyre和Zucker的论文[8]中使用的多实例覆盖的正式定义。 RIPPER-MI算法已应用于诱变性预测，这是一阶归纳工具的典型基准。 Chevaleyre和Zucker [8]报告说，与流行的关系学习者（如PROGOL和FOIL）相比，RIPPER-MI可以在更短的时间内并以可比的准确性生成简洁的规则集。

4.5 BP-MIP

BP-MIP [29]是一种前馈神经网络算法，它将网络的实际输出与所需的输出进行比较，然后反向传播错误并更新连接权重和单位的阈值。
由于BP-MIP算法的训练过程与经典BP算法几乎相同，因此很明显BP-MIP的关键在于多实例误差函数1的形式定义，即使用的函数测量神经网络的误差，因此是要优化的目标。下面我们展示了如何通过根据规则修改标准BP算法来实现这样的定义，即将焦点从区分实例转移到区分袋子。
给定包含1个实例的数据集D，通常根据等式计算神经网络的误差。 21，其中oi和di分别是第i个实例的实际输出和期望输出。
（剩余部分与【Muti-instance Learning 】论文阅读与翻译——Neural Networks for Multi-Instance Learning.（2002）类似，看笔记BP-MIP）

5 Application

将多实例学习技术应用于现实世界中的任务时，必须考虑两个重要问题。首先是选择合适的多实例学习算法。第二个是设计一种适当的方法，用于将现实世界的问题抽象为多实例表示，即确定什么是袋子以及袋子中的实例是什么。在这里，我们称这种方法为制袋机。从某种意义上说，袋生成器的设计比选择多实例学习算法更为重要，因为如果使用适当的袋生成器，学习任务可能会很容易，而如果使用性能较差的袋生成器，学习任务将非常困难。
在提出多样性密度算法[17]的论文中，Maron和LozanoP´erez描述了两个应用。第一个是从一系列图像中学习一个人的简单描述，如果一系列图像包含该人，则这些图像将被正面标记，否则被负面标记。在这里，制袋机的工作方式如下。从每个图像中取样五十四个中心和大小不同的子图像，并将它们中的每一个视为对应于原始图像的包中的一个实例。每个子图像分为三个部分，大致对应于人的头部，躯干和腿所在的位置，并且每个子部分的三种主要颜色用于表示子图像。第二种应用是股票选择，其目的是出于基本原因选择表现良好的股票。在这里，制袋机的工作方式如下。每个月，将有最高收益的100只股票放入一个正袋，而将底部5个股票放入一个负袋。描述了一个实例，该实例具有动量，价格到公允价值等17个特征。Maron和Lozano-Pérez报告说，通过“不同密度”获得的结果要好于GMO预测器。这两个应用程序看起来非常有趣，但是不幸的是在[17]中介绍的细节太少了。
Maron和Ratan [18]将“多样密度”应用于自然场景分类，这是图像理解任务。他们在这里尝试了几种制袋机。所有这些袋子生成器都将每个图像视为一个袋子，首先对其进行过滤并再采样为彩色斑点矩阵。这些袋生成器之间的区别在于样式如何将每个图像的斑点的各种配置转换为相应图像袋的实例。 Maron和Ratan的论文[18]中的图说明了五个袋子生成器，其中第一个袋子生成器将不同的行视为不同的实例，第二个袋子生成器将不同的单个blob视为不同的实例，第三个袋子将一个blob及其四个邻居视为一起例如，第四个实例将一对单个Blob作为实例，第五个实例将一对单个Blob及其邻居一起作为实例。实例以类似的方式表示。例如，在第三个袋生成器中，即带有邻居的单个Blob（缩写为SBN），一个实例包含2×2像素集（一个Blob）及其四个相邻Blob，它们被描述为15维向量[x1， x2，···，x15]。这里的x1，x2，x3是中央斑点的平均RGB值，x4，x5，x6是中央斑点和上方斑点之间的平均RGB值之差，等等。Maron和Ratan [18]报道的结果非常很好，这表明了将多实例学习技术应用于所涉及任务的巨大潜力。
在这里插入图片描述

Yang和Lozano-P´erez [24]扩展了Diverse Density算法，并将其应用于基于内容的图像检索。他们开发了一个复杂的制袋机。在这里，每个图像都被视为一个包，它被分为40个重叠区域。方差低的区域被丢弃，其余区域被视为袋子中的实例。将每个剩余区域平滑并采样到低分辨率h×h矩阵。例如，使用2m h + 1×2n h + 1平均内核对包含m×n个像素的区域进行平滑处理，然后再对h×h矩阵进行二次采样。结果矩阵中的每个元素都是相应子区域的平均灰度值。通过连接这些元素，可以生成h2维特征向量。从中减去特征向量的平均值，然后将其除以其标准偏差，即可获得新的h2维特征向量，用于描述相应实例。值得注意的是，这种制袋机需要将彩色图像转换为灰度图像，因此可能不适合彩色图像的处理。
周等。 [31]也已经将“多样密度”应用于基于内容的图像检索。他们开发了一个名为ImaBag的制袋机，该制袋机是从基于SOM的图像分割技术衍生而来的。在这里，每个图像都被视为一个袋子。每个图像中的像素都使用SOM神经网络基于其颜色和空间特征进行聚类，然后将聚类的块合并到特定数量的区域中。每个区域都由一个3维特征向量表示，该向量由其平均R，G，B值形成，这被视为相应包中的一个实例。周等。 [31]报告说，当ImaBag与多样密度结合使用时，ImaBag的性能要优于Yang和Lozano-P´erez的制袋机[24]，但要比Maron和Ratan的SBN [18]差。
最近，周等人。 [28]将多实例学习应用于特定的Web挖掘任务，即Web索引页面推荐。 Web索引页是一种包含大量信息的网页，但其本身仅提供标题或简短摘要，而将详细的介绍留在其链接的页面上。这里的目标是通过分析用户浏览过的Web索引页面来确定新的Web索引页面是否会引起用户兴趣。 Bag生成器将每个Web索引页面视为一个Bag，将链接的页面视为Bag中的实例。如图7所示，Zhou等人的论文[28]很好地说明了这种想法。这里，每个实例都由文本向量T = [t1，t2，···，tn]描述，其中ti （i = 1,2，···，n）是出现在相应链接页面中的n个最常用术语之一。通过预访问链接的页面，然后计算不同术语的出现次数来获得T。周等。 [28]提出了Fretcit-kNN算法，它是Citation-kNN的一种变体，为此通过修改最小Hausdorff距离以测量文本向量之间的距离来完成此任务，他们报告说，Fretcit-kNN的性能为比经典的信息检索算法（TFIDF）更好。 Zhou等人使用的数据集。 [28]可从http://cs.nju.edu.cn/people/zhouzh/ zhouzh.files / publication / annex / milweb-data.rar免费获得。
多实例学习也已应用于机器人控制。为了使机器人能够在大型环境中导航，通常需要完成地标匹配。也就是说，机器人应该能够从机器人当前位置获取的数据中识别出它是否在给定地标附近。一种常见的方法是将视觉图像与在界标位置获取的数据进行匹配。但是由于图像可能会随着围绕地标位置的微小移动而发生显着变化，因此这种方法遇到了困难。更好的方法是将此问题转换为几何图案的学习。高盛等。 [12]提出了一种在线不可知学习算法，该算法通过将问题简化为学习离散变量集的问题来学习离散的恒定维几何图案的类，实际上是一种多实例学习算法，可以学习轴平行的矩形。后来，Goldman和Scott [13]扩展了该算法，使其可以处理实值几何模型。
在这里插入图片描述

多实例学习还有其他几种应用。例如，Weiss和Hirsh [23]提出将事件预测转换为多实例问题，从而可以在多实例学习框架下解决一种时间序列分析问题。 Ruffo [20]将多实例决策树（即“遗物”）应用于计算机安全问题，例如密码检查，入侵检测，网络管理等。

6 Extension

在多实例学习的早期，大多数工作是在离散值输出的多实例分类上进行的。最近，具有实值输出的多实例回归开始引起一些研究人员的注意。 Ray and Page [19]表明，多实例回归任务的一般公式是NP-hard，并提出了一种基于EM的多实例回归算法。 Amar等。 [2]扩展了Citation-kNN和Diverse Density算法进行多实例回归，并设计了一些人工生成多元回归数据的方法。他们使用的数据集[2]可从http://www.cs.wustl.edu/~sg/multi-inst-data/免费获得。
Chevaleyre和Zucker [8]指出，严格来说，由Maron及其同事[17] [18]研究的涉及图像的任务不同于药物活性预测的问题。这是因为在毒品活动预测中，实例实际上是对袋子的描述，而对于特定的袋子，一次只能出现一个实例。在涉及图像的任务中，实例是对袋子一部分的描述，对于一个特定的袋子，一次所有实例必须一起出现。 Chevaleyre和Zucker [8]将后一种情况称为多部分学习。但是，如果严格区分多实例和多部分学习，那么除了药物活性预测的原始工作外，几乎所有的应用研究实际上都是针对多部分问题的。请注意，Chevaleyre和Zucker [8]承认，可以通过多实例学习算法解决多部分问题，而无需进行任何修改。因此，至少目前没有必要区分这两个概念。
最近，Weidmann等人。 [22]指出，通过对实例的分类如何确定其行李的标签采用不同的假设，可以定义不同种类的多实例问题。形式上，让χ表示实例空间，而Ω= {+，−}表示类标签集。多实例概念是2χ→a的函数。在标准的多实例学习中，此功能定义为等式。参见图24，其中ci∈C是概念空间C中的特定概念，而Xχχ是一组实例。

基于这种认识，Weidmann等人。 [22]定义了三种广义的多实例问题，即基于在场的MI，基于阈值的MI和基于计数的MI。基于状态的MI是根据包中每个概念实例的存在来定义的，如等式1所示。 25;基于阈值的MI要求同时存在每个概念的一定数量的实例，如等式3中所定义。 26;基于计数的MI要求袋中某个概念的实例的最大数量和最小数量，如等式3中所定义。 27。

在等式中25至27，νPB，νT带νC在2χ→defined上定义的裸函数，C⊂C是一组给定的概念，∆是计数函数∆：2χ×C→N用来计算袋子中给定概念的数量，ti∈N和zi∈N分别是概念ci的下限和上限。魏德曼等。 [22]提出了一种用于解决这些广义多实例问题的两级分类方法。他们还设计了一些方案，用于人为地生成广义的多实例数据集。
值得注意的是，多实例学习也引起了ILP社区的关注。有人建议[9]可以将多实例问题视为归纳逻辑编程的偏见，并且多实例范式可能是命题表示和关系表示之间的关键，比前者更具表达力，并且更容易实现要比后者学习。最近，Alphonse和Matwin [1]成功地采用了多实例学习来帮助进行关系学习。首先，原始的关系学习问题可以通过多实例问题来近似。结果数据被馈送到根据命题表示法进行调整的特征选择技术。然后，将过滤后的数据转换回关系表示以供关系学习者使用。这样，就很好地结合了关系表示的表达能力和命题表示的特征选择简便性。这项工作证实了多实例学习可以充当命题学习和关系学习之间的桥梁。

7 Discussion

阻碍多实例学习前进的最严重的问题是，只有一种普遍使用的现实世界基准数据，即Musk数据集。尽管某些应用程序数据已在某些作品中使用，但由于某些原因它们几乎无法充当基准。例如，Maron和Ratan [18]，Yang和Lozano-P´erez [24]，Zhang等人已经使用了COREL图像数据库。 [26]，和周等。 [31]但是，由于COREL数据库包含大量图像，因此通常只使用数据库的一部分，而不同研究人员使用的部分通常是不同的； Chevaleyre和Zucker [8]和Alphonse和Matwin [1]使用了诱变数据，但是该数据通常用于测试ILP学习者而不是多实例学习者。尽管存在一些人工数据集[2] [19] [22]，但由于它们是为扩展多实例学习（如多实例回归和广义多实例学习）而设计的，因此很难广泛使用。此外，人工数据集的意义可能小于实际数据集的意义。
Dietterich等。文献[10]估计，迭代法APR算法的性能可能是Musk数据的上限，但是这种性能水平已经被多种算法所超越。表2总结了文献报道的最佳结果。
实际上，当前对Musk数据的准确性是如此之高，以至于很难预料到新算法会做得更好。即使某些新算法可以做到这一点，也可能不是一个好消息，因为这些算法很有可能过度偏爱此特定数据。为了提供公平的基础来测试新算法和比较不同算法，迫切需要更多数据集。最近，一个现实世界的数据集已经被共享[28]。非常希望在不久的将来公开更多的数据集。
在这里插入图片描述

当提出多实例学习的概念时，Dietterich等人。 [10]提出了一个开放的问题，即如何为流行的机器学习算法设计多实例修改。这个开放的问题极大地推动了这一领域的发展。实际上，在过去的几年中已经开发了几乎所有流行的机器学习算法的多实例版本。现在看来该是提出新的挑战性问题以刺激新算法设计的时候了。以下是一个不错的选择：我们可以有效地将实例标记在看不见的袋子中吗？实际上，在多实例学习的原始定义中，任务只是从训练集中学习一些概念，以正确标记看不见的袋子。但是在大多数应用中，如果可以正确标记包装袋中的实例，将会更有帮助。目前，包括APR算法，Diverse Density和EM-DD在内的几种算法可以识别包含真实正实例的小区域，这可能为解决上述问题提供基础。显然，在这个方向上有许多工作要做。
许多研究人员试图将新问题引入多实例学习的研究范围，该领域已在第6节中进行了调查。多实例回归显然值得研究，因为它的潜力是显而易见的，至少与Dietterich等人一样。 [10]指出，如果可以产生实值输出，那么可以预测不同分子的结合强度，这对药物设计很有价值。利用多实例范式桥接命题和关系学习也很值得探索，因为这可能会带来新一代强大的学习算法。至于多部分学习，如第6节所述，至少目前不需要进行研究，因为所有当前的多部分问题都可以通过多实例学习算法解决。广义多实例学习的价值应从应用程序中进行检查。如果可以确定一些现实世界中的广义多实例问题，而不是诸如门钥匙问题之类的故事[22]，那么广义多实例学习值得研究。确实，关注应用程序不仅可以帮助我们确定多实例学习的扩展价值，还可以帮助我们获取数据集并激发多实例学习的问题。

咖喱星

关注

1
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
【MIL】论文阅读与翻译——Multi-instance learning: A survey.（2004）

Z.-H. Zhou. Multi-instance learning: A survey. Technical Report, AI Lab, Department of Computer Science & Technology, Nanjing University, Nanjing, China, Mar. 2004.Abstract 在多实例学习中，训练集包括由未标记实例组成的标记袋，任务是预测未看见的袋的标记。本文对此主题进行了调查。首先，它介绍了多实例学习的起源。然后，回顾了关于
复制链接

扫一扫

专栏目录