【多实例学习】2017-PR-多实例学习：问题特征和应用的调查

本文链接：https://blog.csdn.net/weixin_42475026/article/details/130339616

2017-PR-Multiple instance learning: A survey of problem characteristics and applications

多实例学习：问题特征和应用的调查

多实例学习：问题特征和应用的调查

论文地址
 代码地址

摘要

多实例学习（MIL）是一种弱监督学习形式，其中训练实例被排列在集合中，称为包，并为整个包提供标签。这个公式正在引起人们的兴趣，因为它自然地适合各种问题并允许利用弱标记的数据。因此，它已被用于计算机视觉和文档分类等不同的应用领域。然而，从包中学习提出了 MIL 独有的重要挑战。本文对定义和区分 MIL 问题类型的特征进行了全面调查。直到现在，还没有正式识别和描述这些问题特征。因此，很难解释从一个数据集到另一个数据集的 MIL 算法的性能变化。在本文中，MIL 问题特征分为四大类：包的组成、数据分布的类型、实例标签的模糊性和要执行的任务。审查了专门针对每个类别的方法。然后，描述了这些特征在关键 MIL 应用领域中表现出来的程度。最后，进行了实验以比较 16 种最先进的 MIL 方法在选定问题特征上的性能。本文提供了有关问题特征如何影响 MIL 算法的见解、对未来基准测试的建议和有前途的研究途径。代码可在 https://github.com/macarbonneau/MILSurvey 在线获取。

引言

多实例学习（MIL）处理以集合形式排列的训练数据，称为包。仅对整个集合提供监督，不提供包中个体的单独标签。这个问题的表述引起了研究界的广泛关注，尤其是近年来，解决大型问题所需的数据量呈指数级增长。大量数据需要大量的标记工作。

弱监督方法，例如 MIL，可以减轻这种负担，因为通常可以更有效地获得弱监督。例如，对象检测器可以使用从网络收集的图像进行训练，使用它们的相关标签作为弱监督而不是局部标记的数据集 [1、2]。计算机辅助诊断算法可以使用医学图像进行训练，其中只有患者诊断可用，而不是专家提供的昂贵的本地标记。此外，有几种类型的问题可以自然地表述为 MIL 问题。例如，在药物活性预测问题 [3] 中，目标是预测分子是否会引起给定的效果。一个分子可以采用多种构象，这些构象可以产生或不产生所需的效果。观察个体构象的影响是不可行的。因此，分子必须作为一组构象来观察，因此使用 MIL 公式。由于这些吸引人的特性，MIL 在过去 20 年中越来越多地用于许多其他应用领域，例如图像和视频分类 [4–9]、文档分类 [10、11] 和声音分类 [12]。

一些比较研究和荟萃分析已经发表，以更好地理解 MIL [13-23]。所有这些论文都观察到 MIL 算法的性能取决于问题的特征。虽然在文献 [10、11、24、25] 中已部分分析了其中一些特征，但尚未描述关键 MIL 问题特征的正式定义。

对此类基本问题特征的有限理解会在许多方面影响 MIL 研究的进步。实验结果可能难以解释，所提出的算法是在不适当的基准数据集上进行评估的，并且合成数据的结果通常不能推广到现实世界的数据。此外，与 MIL 问题相关的特征已经以不同的名称得到解决。例如，包中正实例数量较少的场景被称为稀疏包 [26、27] 或低见证率 [24、28]。因此，对于未来的研究来说，正式识别和分析 MIL 问题的定义和区别是很重要的。

本文全面调查了 MIL 问题的固有特征，并研究了它们对 MIL 算法性能的影响。这些问题特征都与MIL的独特性有关：实例标签的模糊性和包中数据的分组。我们建议将问题特征分为四大类：预测水平、包组成、标签歧义（Label ambiguity）和数据分布。

每个特征都会带来不同的挑战。当实例被分组到包中时，可以在两个级别执行预测：包级别或实例级别 [19]。这两项任务具有不同的错误分类成本，因此算法通常更适合其中一项任务 [20、21]。包的组成，例如每个类的实例比例和实例之间的关系，也会影响 MIL 方法的性能。实例标签歧义的来源是另一个需要考虑的重要因素。这种歧义可能与标签噪声以及不属于明确定义的类的实例有关 [17]。最后，正分布和负分布的形状会影响 MIL 算法，具体取决于它们对数据的假设。

作为额外的贡献，本文回顾了最先进的方法，这些方法可以解决每个问题特征的挑战。它还检查了 MIL 的几种应用，并在每种情况下确定了它们的主要特征和挑战。例如，在计算机视觉中，实例可以在空间上相关，但这种关系在大多数生物信息学应用中并不存在。最后，实验显示了选定问题特征的影响——实例分类任务、见证率、负类建模和标签噪声——使用 16 种代表性 MIL 算法。这是第一次根据这些特定挑战对包和实例分类任务的算法进行比较。我们的发现表明，这些问题特征对所有 MIL 方法的性能都有相当大的影响，并且每种方法受到的影响不同。因此，在提出新的 MIL 方法和进行对比实验时，不能忽视问题表征。最后，本文从问题特征的角度为该领域的未来研究提供了新的见解和方向。

本文的其余部分安排如下。下一节描述了 MIL 假设和可以使用 MIL 框架执行的不同学习任务。第 3 节回顾了以前的调查和一般 MIL 研究。第 4 节和第 5 节分别识别和分析关键问题的特征和应用。实验在第 6 节中介绍，随后在第 7 节中进行讨论。

2. 多实例学习

2.1. 假设

在本文中，我们考虑两个广泛的假设：标准假设和集体假设。有关该主题的更详细的评论，读者可以参考 [17]。

标准 MIL 假设指出所有负包仅包含负实例，而正包至少包含一个正实例。这些正面实例在许多论文中被命名为证人，本次调查也使用了这一名称。设 $X$ 是一个包，定义为一组特征向量 $X=\left\{\mathbf{x}_1,\mathbf{x}_2,\ .\ .\ .,\ \mathbf{x}_N\right\}$ 。特征空间 $\mathcal{X}$ 中的每个实例（即特征向量） $\mathbf{x}_i$ 可以通过一些过程映射到一个类 $f\ : \ \mathcal{X}\rightarrow\left\{0,\ 1\right\}$ ，其中负类和正类分别对应 0 和 1。包分类器 $g\left(X\right)$ 定义为：

公式 1

这是许多早期方法 [3、6、29] 以及最近的方法 [30、31] 的工作假设。要在标准假设下对包进行正确分类，不需要识别所有目击者，只要在每个阳性包中至少找到一个。更详细的讨论将在第 4.1 节中介绍。

可以放宽标准 MIL 假设，以解决无法通过单个实例识别正包，而是通过其包含的实例的分布、交互或累积来识别的问题。在这里，包中的实例不再是独立的，包分类器可以采用多种形式。接下来，我们举三个有代表性的例子。

在某些问题中，需要多个正实例才能为包分配正标签。例如，在道路图像的交通拥堵检测中，汽车将是一个正（positive）实例。然而，包含几辆汽车的图像并不是正的，因为需要很多汽车才能造成交通堵塞。在这种情况下，包分类器可以通过以下方式给出：

公式 2

其中 $\theta$ 是 positive bags 中目击者的最小数量。

集体假设的更一般情况是当包的类别由属于多个概念的实例定义时。Foulds 和 Frank [17] 通过对沙漠、海洋和海滩的图像进行分类，给出了一个简单且具有代表性的例子来说明这一假设。沙漠图像包含沙子片段，而海洋图像包含水片段。但是，海滩图像必须包含这两种类型的片段。为了正确地对海滩图像进行分类，模型必须验证两种类型的目击者的存在，因此，在这种情况下，在标准 MIL 假设下工作的方法将失败。一些方法将实例分配给一组已定义的概念（ $\mathcal{C}$ ），其中一些概念属于正类（ $\mathcal{C}^+\subset\mathcal{C}$ ）。在这种情况下，包分类器 $g\left(X\right)$ 定义为：

公式 3

其中 $f_c\left(\mathbf{x}\right)$ 是一个过程，如果 $\mathbf{x}$ 属于概念 $c$ ，则输出 1， $\theta_c$ 是观察正包所需的属于 $c$ 的实例数。这种类型的多个概念假设具有不同程度的普遍性 [32]。或者，包可以看作是实例的分布。在 [33] 中，包空间 $\mathcal{B}$ 被定义为实例空间（ $\mathcal{P}\left(\mathcal{X}\right)$ ）上所有概率分布的集合。每个包 $X$ 都是实例 $P\left(\mathbf{x}|X\right)$ 上的概率分布。在这种情况下，包分类器是将概率分布映射到标签的过程： $KaTeX parse error: Undefined control sequence: \* at position 71: …rightarrow\left\̲*̲$ 斜体样式 $KaTeX parse error: Expected '}', got '\right' at position 7: {0,\ 1\̲r̲i̲g̲h̲t̲\}$ 。

在本次调查中，集体假设指定了所有假设，其中需要不止一个实例来识别阳性包。

2.2. 任务

分类：分类可以在两个层次上进行：包和实例。包分类是 MIL 算法最常见的任务。它包括为一组实例分配一个类标签。根据算法和假设的类型，单个实例标签不一定重要。实例分类不同于包分类，因为虽然训练是使用按集合排列的数据进行的，但目标是对实例进行单独分类。正如 [34] 中所指出的，这两个任务的损失函数是不同的（参见第 4.1 节）。当目标是包分类时，对实例进行错误分类并不一定会影响包级别的损失。例如，在一个 positive bag 中，很少有 true negative 实例会被错误地分类为 positive 并且 bag label 将保持不变。因此，问题的结构，例如包中的实例数量，在损失函数中起着重要作用 [20]。因此，包分类算法的性能并不代表实例分类所获得的性能。此外，许多用于包分类的方法（例如 [35、36]）不在实例空间中进行推理，因此通常无法执行实例分类。

MIL 分类不限于为实例或包分配单个标签。考虑到包可以包含代表不同概念的实例，因此为包分配多个标签尤为重要。这个想法一直是一些出版物的目标 [37-39]。多标签分类与单标签分类具有相同的问题特征，因此本文其余部分将不对两者进行区分。

回归：MIL 回归包括为包（或实例）而不是类标签分配真实值。已经以不同的方式解决了这个问题。一些方法基于单个实例分配包标签。该实例可能最接近目标概念 [40]，或者最适合回归模型 [41]。其他方法在集体假设下工作，并使用实例的平均或加权组合将包表示为单个特征向量 [42–44]。或者，on 可以简单地用回归器 [45] 替换包级分类器。

排名：已经提出了一些方法来对包或实例进行排名，而不是分配类别标签或分数。该问题与回归问题不同，因为目标不是获得精确的实数值标签，而是比较分数的大小以执行排序。排名可以在包级 [46] 或实例级 [47] 进行。

聚类：此任务包括在一组未标记的包中寻找聚类或结构。关于该主题的文献是有限的。在某些情况下，使用标准算法和基于集合的距离度量（例如 kMedoids 和 Hausdorff 距离 [48]）在包空间中执行聚类。或者，可以在实例级执行聚类。例如，在 [49] 中，该算法识别每个包最相关的实例，并对这些实例执行最大边缘聚类。

本文其余部分的大部分讨论将围绕分类展开，因为这是研究最多的任务。然而，与问题特征相关的挑战和结论也适用于其他任务。

3. MIL研究

由于许多问题都可以表述为 MIL，因此文献中有大量的 MIL 算法。然而，只有少数一般 MIL 研究和调查。本节总结并解释了这些一般 MIL 论文的广泛结论。

关于 MIL 的第一份调查是 2004 年撰写的技术报告 [13]。它描述了几种 MIL 算法、一些应用程序并讨论了 MIL 框架下的可学习性。2008 年，Babenko 发表了一份报告 [14]，其中包含对 MIL 方法主要家族的最新调查，并区分了 MIL 问题中的两种类型的歧义。第一种类型是多态性歧义，其中每个实例都是一个不同的实体或一个实体的不同版本（例如分子的构象）。第二种是部分-整体歧义，其中所有实例都是同一对象的一部分（例如图像的片段）。在最近的一项调查 [15] 中，Amores 提出了一种分类法，其中 MIL 方法根据表示空间分为三大类。在实例空间中运行的方法被分组在一起，在包空间中运行的方法根据是否执行包嵌入分为两类。进行了几个实验来比较四个应用领域的包分类精度。包空间方法在包分类精度方面表现更好，但是，性能取决于数据和距离函数或嵌入方法。最近，出版了一本关于 MIL 的书 [50]。它讨论了第 2.2 节的大部分任务以及相关方法，以及数据缩减和不平衡数据。最后，Quellec 等人 [51] 撰写了一份关于 MIL 的医学成像应用调查，MIL 是一个特别有吸引力的解决方案。他们回顾了这个应用领域的问题是如何形成的，并分析了各种实验的结果。他们的结论是，虽然更方便，但 MIL 优于单实例学习，因为它可以捕捉到微妙的全局视觉线索，这些线索无法正确分割并将其用作单实例来训练分类器。

一些论文研究了 MIL 的特定主题。例如，Foulds 和 Frank [17] 回顾了 MIL 算法所做的假设。他们表示，这些假设会影响算法在不同类型的数据集上的表现。他们发现，在集体假设下工作的算法在对应于标准 MIL 假设的数据集上也表现良好。Sabato 和 Tishby [52] 分析了 MIL 中的样本复杂性，发现 MIL 的统计性能仅略微依赖于每个包的实例数。在 [23] 中，研究了 MIL 基准数据集之间的相似性。数据集以两种方式表示：通过描述包、实例等数量的元特征，以及基于 MIL 算法性能的特征。两种表示都嵌入到 2D 空间中，并且发现它们彼此不同。换句话说，由于应用程序或数据大小而经常被认为相似的数据集但其行为并不相似，这表明一些未观察到的属性会影响 MIL 算法的性能。

一些论文将 MIL 与其他学习设置进行比较，以更好地理解何时使用 MIL。Ray 和 Craven [18] 比较了 MIL 方法与监督方法在 MIL 问题上的性能。他们发现，在许多情况下，监督方法会产生最具竞争力的结果。他们还指出，虽然一些方法系统地支配其他方法，但算法的性能取决于应用程序。在 [19] 中，探讨了 MIL 与其他设置（例如基于组的分类和集合分类）之间的关系。他们指出 MIL 适用于两种场景：包的分类和实例的分类。最近，对这两种情况之间的差异进行了严格调查 [20]。分析和实验表明，包和实例级别的分类性能之间的相关性相对较弱。实验表明，根据数据集，最好的包分类算法提供平均，甚至最差的实例分类性能。他们还观察到，考虑到数据的性质，不同的MIL算法表现不同。

实例分类本身就是一项任务，但也可以是实例空间方法 [15] 包分类的中间步骤。Alpaydin 等人 [21] 在合成数据和真实数据上比较了实例空间和包空间分类器。他们得出结论，对于包很少的数据集，最好使用实例空间分类器。他们还指出，如 [15] 中所述，如果实例提供有关包标签的部分信息，则最好使用包空间表示。在 [22] 中，Cheplygina 等人探索了 MIL 算法分配的实例标签的稳定性。他们发现产生最佳包分类性能的算法并不是提供最一致实例标签的算法。Carbonneau 等人 [53] 研究了识别几种 MIL 方法的证人的能力。他们发现，根据数据的性质，一些算法表现良好，而另一些则难以学习。

最后，一些论文侧重于特定类别的算法和应用程序。Doran 和 Ray [16] 分析和比较了几种基于 SVM 的 MIL 方法。他们发现，根据方法的属性，某些方法在实例分类方面的表现优于包分类，反之亦然。Wei 和 Zhou [54] 比较了从图像生成实例包的方法。他们发现，密集采样实例比在兴趣点或分割后采样实例具有更高的准确性。这与其他词包（BoW）经验比较一致 [55、56]。他们还发现使用集体假设的方法在图像分类方面表现更好。Vankatesan 等人 [57] 表明，简单的懒惰学习技术可以应用于某些 MIL 问题，以获得与最先进技术相当的结果。Kandemir 和 Hamprecht [58] 在两个计算机辅助诊断（CAD）应用程序中比较了几种 MIL 算法。他们发现，在这种情况下，对包内相似性进行建模是包分类的好策略。

这些研究的主要结论总结如下：

MIL 算法的性能取决于数据集的几个属性 [15、18、20、21、23、53]。
当需要对实例组合进行建模以推断包标签时，包空间和嵌入方法表现更好 [15、21、51、54]。
最好的 bag-level 分类器很少是最好的 instance-level 分类器，反之亦然 [16、20]。
当包数量较少时，最好使用基于实例的方法 [21]。
一些 MIL 问题也可以使用标准的监督方法 [18] 来解决。
MIL 的性能仅略微依赖于每个包的实例数 [52]。
同一个包的实例之间的相似性会影响分类性能 [58]。

所有这些结论都与 MIL 问题独有的一个或多个特征相关。识别这些特征并更好地理解它们对 MIL 算法的影响是迈向 MIL 研究进步的重要一步。本调查论文主要关注这些特征及其对方法和应用的影响。有关 MIL 方法的更一般性调查，我们建议感兴趣的读者参考 [15]。

4. MIL问题的特点

我们确定了与 MIL 问题相关的四大类关键特征，这些问题直接影响 MIL 算法的行为：预测水平、包组成、数据分布和标签歧义（如图 1 所示）。每个特性都会带来不同的挑战，必须具体加以解决。

图 1

图 1. MIL 问题的固有特征。

在本节的其余部分，将更详细地讨论这些特征中的每一个，以及文献中提出的具有代表性的专门方法来解决这些问题。

4.1. 预测：实例级与包级

在某些应用程序中，例如图像中的对象定位，目标不是对包进行分类，而是对单个实例进行分类。在这种情况下，问题是用隐含的假设来表述的，即实例可以被标记为正的或负的。按照 2.1 节的标记，例如分类，任务是学习 $f\left(\mathbf{x}\right)$ 而不是 $g\left(\mathbf{x}\right)$ 。这两个任务在某种意义上是相关的，即在标准 MIL 假设下，一个完美的实例分类器 $f^\ast\left(\mathbf{x}\right)$ 将产生一个完美的包分类器：

公式 4

相反，一个完美的包分类器 $g^\ast\left(X\right)$ 实现了完美的实例分类，因为一个实例可以被视为一个单例包， $S=\left\{\mathbf{x}\right\}$ ：

公式 5

在实践中，这些最优分类器都不可能被训练。更重要的是，对于给定的有限数据集，最优分类器之间的关系不再是互惠的。一个完美的实例分类器仍然会导致一个最优的包分类器，但反之则不然。例如，假设 MIL 数据集的所有实例都是从两个积极概念（ $C_1$ 和 $C_2$ ）或消极概念（ $C_-$ ）中的一个中采样的。此外，所有正包都包含来自正概念和负概念的正实例： $X^+=\left\{\mathbf{x}_1\in C_1,\ \mathbf{x}_2\in C_2,\ \mathbf{x}_3\in C_-\right\}$ 。所有负包都包含从负概念采样的实例： $X^+=\left\{\mathbf{x}_1\in C_-,\ \mathbf{x}_2\in C_-,\ {...,\ \mathbf{x}}_N\in C_-\right\}$ 。在这种情况下，以下分类器实现了完美的包分类：

公式 6

其中

公式 7

${\hat{g}}^\ast\left(X\right)$ 会正确分类数据集中的所有包，而 $\hat{f}(\mathbf{x})$ 会错误分类一半的正例。

在 MIL 中，训练实例分类器非常重要，因为实例标签不可用。这就是为什么许多方法使用包分类精度（例如 APR [3]、MI-SVM [6]、MIL-Boost [59]、EM-DD [35]、MILD [60]）作为替代优化目标来训练一个实例分类器，希望包级准确率能够代表实例级准确率。然而，正如接下来将要讨论的，这两项任务的成本函数存在关键差异。这些差异解释了为什么一种方法的包级精度不能反映其在实例级的精度 [16、20]。分析和实证研究表明 [20] 两个级别的准确性之间的关系取决于包中实例的数量、类别不平衡和实例分类器的准确性。因此，为包分类设计的算法对于实例分类来说并不是最优的。

在这里，我们解释了两个分类级别的实例误分类成本之间的差异。在标准的 MIL 假设下，一旦在包中识别出证人，它就会被标记为阳性，所有其他实例标签都可以忽略。在那种情况下，假阳性（FP）和假阴性（FN）对包分类的准确性没有影响，但仍然算作实例级别的分类错误。此外，在考虑负包时，单个 FP 会导致包被错误分类。这意味着如果每个负包中有 1% 的实例被错误分类，则负包的准确率将为 0%，尽管负例的准确率为 99%。如图 2 所示。绿色集合代表正包，而负包对应蓝色集合。每个实例都用它的真实类来标识。在此图中，两个决策边界（虚线）对于包分类都是最佳的，因为它们至少包含所有正包中的一个实例，同时排除负包中的所有实例。然而，只有两个边界之一实现了完美的实例分类（紫色）。

图 2

图 2. 一个虚构问题的两个决策边界的图示。虽然只有紫色边界正确分类了所有实例，但它们都实现了完美的包分类。这是因为，在那种情况下，误报和漏报实例不会影响包标签。（为了解释这个图例中对颜色的引用，读者可以参考本文的网络版本。）

文献中的大多数方法都解决了包分类问题。这些方法在过去已被广泛调查，因此我们建议感兴趣的读者参考 [13-15]。提出的实例分类方法中有很大一部分方法是测量包分类的准确性来训练实例分类器。对包中所有实例的预测进行聚合，通常使用 max 函数（或可微分近似），并根据包标签计算损失。这个想法已被用于训练 [61、62] 中的 Boosting 分类器和其他类型的模型，例如逻辑回归 [18] 和深度神经网络 [2]。上述方法是针对实例分类提出的，但在本质上与大多数在实例空间中推理的包分类方法如 APR [3]、EM-DD [35]、MIOptimalBall [63]、MI-SVM [6] 和 SDB-MIL [31] 并无不同。这些方法在预测包标签之前对实例进行单独分类，这意味着它们可以直接用于实例级分类。

如上所述，使用包分类准确度作为替代优化目标是次优的。这就是为什么有人提议在分类器损失函数中分别考虑负包和正包 [64]。positive bags 的准确性是在 bag level 上获取的，但对于 negative bags，所有实例都是单独处理的。在 [34] 中提出了这种优化准则来调整包分类器的决策阈值以进行实例分类并提高其准确性。在 [65] 中，在 SVM 的优化过程中，不同的权重被分配给 FP 和 FN。实际上，任何包级分类器都可以对被视为单例包的实例进行分类。这是 Citation-kNN-ROI [66] 背后的基本原理，然而，它在实践中表现不佳（参见第 6.4 节）。MILES [4] 是一种基于原型距离嵌入的包分类方法和可用于实例分类的 SVM。该方法根据每个实例到选定原型的距离计算每个实例对包标签分配的贡献。贡献高于给定阈值的正包中的实例被识别为证人。

一些方法试图揭示实例的真实标签来训练实例分类器。最著名的方法之一是 mi-SVM [6]。初始化实例标签后，训练 SVM 分类器并用于更新标签分配。迭代执行这两个步骤，直到标签分配保持不变。生成的 SVM 分类器用于预测测试实例的标签。MissSVM [67] 将问题视为半监督学习，其中正包中的实例未标记。该算法类似于 mi-SVM，不同之处在于它强制执行每个正包都包含一个正例的约束。KI-SVM [68] 使用多核方法，其中核对 SVM 约束中可能的标签分配进行编码。在该方法中，假设所有正例包中有相同数量的正例。MILD [60] 发现了一组真阳性实例。实例为正的概率取决于其附近由高斯核定义的包标签。发现的真阳性实例用于训练 SVM 分类器。RSIS-EoSVM [30] 中提出了一个类似的想法，其中实例被投影到随机子空间中，并且附近取决于集群分配。在那种情况下，标签分配是概率性的。基于这些概率分配对几个训练集进行采样，以训练 SVM 分类器的集合。

4.2. 包组成

4.2.1. 见证率

见证率（WR）是正例包中正例的比例。当 WR 非常高时，positive bags 只包含少数 negative instances。在这种情况下，可以假定实例的标签与其包的标签相同。然后问题恢复为具有单侧噪声的监督问题，可以在常规监督框架中解决 [69]。然而，在某些应用中，WR 可以任意小并阻碍许多算法的性能。例如，在 Diverse Density（DD）[29]、Citation-kNN [35] 和 APR [3] 等方法中，实例被认为具有与其包相同的标签。当 WR 较低时，这不再合理，从而导致性能下降。分析包中实例分布的方法 [70-72] 也可能在处理低 WR 时出现问题，因为正负包中的分布变得相似。此外，一些方法通过它们包含的实例的平均值来表示包（例如 NSK-SVM [73]），或者同等地考虑它们对包标签的贡献 [74]。在 WR 非常低的情况下，少数正实例在汇集过程后的影响有限。最后，在实例分类问题中，较低的 WR 意味着严重的类不平衡问题，这会导致许多方法的性能不佳。

近年来，几位作者研究了低 WR 问题。例如，稀疏转换 MIL（stMIL）[27] 是一种类似于 NSK-SVM [73] 的 SVM 公式。然而，为了更好地处理低 WR 包，SVM 的优化约束被修改为当在正包中找到至少一个 witness 时满足。此方法在低 WR 时表现良好，但在较高时效率较低。稀疏平衡 MIL（sbMIL）[27] 将 WR 的估计作为优化目标中的一个参数来解决这个问题。通过 ALP-SVM [75]、SVR-SVM [24] 和 $\gamma$ 规则 [28]，WR 估计也已成功用于低 WR 问题。使用 WR 作为参数的一个缺点是假设 WR 在所有包中都是恒定的。其他方法，如 CR-MILBoost [76] 和 RSIS [30]，在训练分类器集合之前估计每个实例为正的概率。在训练期间，分类器更加重视更有可能成为证人的实例。在 miGraph [10] 中，包中的相似实例被分组到 cliques 中。每个实例的重要性与其 clique 的大小成反比。假设正面和负面实例属于不同的集团，WR 几乎没有影响。在 miDoc [26] 中，一个图表示整个 MIL 问题，其中根据连接边比较包。实验表明，该方法在非常低的 WR 问题上表现良好。

4.2.2. 实例之间的关系

大多数现有的 MIL 方法通常不明确地假设正例和负例是独立于正分布和负分布进行采样的。然而，现实世界的数据很少出现这种情况。在许多应用中，由于实例和包之间存在结构或相关性，因此违反了 $i . i . d .$ 假设 [10、77]。我们区分了三种类型的关系：包内相似性、实例共现和结构。

包内相似性：在某些问题中，属于同一包的实例具有与其他包中的实例不相同的相似性。例如，在药物活性预测问题 [3] 中，每个包都包含同一分子的许多构象。同一分子的实例很可能在某种程度上相似，但与其他分子不同 [13]。必须确保 MIL 算法学习区分活性构象和非活性构象，而不是学习对分子进行分类。在与图像相关的应用中，很可能所有片段都具有一些与捕获条件相关的相似性（例如光照、噪声等）。或者，同一包的实例之间的相似性可能与实例生成过程有关。例如，一些方法使用密集提取的重叠块（图 3）。由于它们共享一定数量的像素，因此它们很可能是相关的。此外，图片的背景可以分成不同的部分，这些部分非常相似（见图 4）。

图 3

图 3. 实例之间包内相似性的图示：块是重叠的，因此彼此之间具有相似性。

图 4

图 4. 实例之间的共现和相似性示例：三个片段包含草地和森林，因此非常相似。此外，由于这是熊的图像，因此背景比核中央控制室更有可能是大自然。

包内相似性在学习过程中提出了一些挑战。例如，如果来自正负包的负实例的性质不同 [18]，则转导算法（例如 mi-SVM [6]）可能无法推断实例标签。

很少有方法被明确提出来解决这个问题。为了处理相似的实例，miGraph [10] 为每个包构建一个图，并将相似的实例分组在一起，以根据组大小调整它们的相对重要性。CCE [36] 执行实例空间的聚类。包由二进制向量表示，其中每个位对应一个簇。如果包中的至少一个实例已分配给相应的集群，则位设置为 1。[78] 中使用了类似的方法，除了位与从数据集中挖掘的子图模式池相关联。因为特征是二进制的，许多实例可以分配到同一个集群并且表示不受影响，这为包内相似性提供了鲁棒性。

如果实例在分类器使用的度量空间中彼此接近，则它们是相似的。根据数据的类型，可以使用不同的距离度量来衡量相似性或相异性，例如欧几里德 [79]、余弦 [26] 或 $\mathcal{X}^2$ [80]。减轻与类内相似性相关问题的一个好方法是定义一个新的实例空间，在该空间中距离与类的关系比与包成员关系的关系更大。这个新空间可以通过选择真正区分类别（而不是包）的特征或通过学习增强类别判别信息的表示来获得。在大多数情况下，新的缩减实例空间最大化负实例与每个正包中最正实例之间的距离。例如，Relief-MI [81] 是对 MIL 的 Relief [82] 特征选择算法的改编。对于随机包，它在不同版本的 Hausdorff 距离下识别每个类的最近邻居。然后，它根据同一类别的邻居与该特征下其他特征之间的距离差，为每个特征分配一个分数。选择最具鉴别力的特征并丢弃其他特征。其他特征选择算法已经以类似的方式适用于 MIL [83、84]。在 B-M3IFW [79] 中，正包由其最正实例表示，以形成正原型池（prototypes）。特征权重是通过最大化定义为两项之间的差异的边际获得的：正原型和负实例之间的距离以及正原型之间的距离，即正原型的平均值。

几种方法包括内置的特征选择或加权机制。例如，APR [3] 搜索一个特征子集，其中超矩形包含所有正包中的至少一个实例，同时将负实例保留在外面。MIRVM [85] 在贝叶斯学习框架中同时执行分类和特征选择。它使用 MILR [18] 并使用 II 型最大似然法执行最佳特征选择。Diverse Density [29、35] 衡量每个特征的重要性，以定义包含实例空间中积极概念的最佳区域。这种缩放也被用于 [86] 以提高 BP-MIP [87] 的性能。

最后，特征学习方法将实例投射到降维空间中，在该空间中强制执行包级别的类别区分。通常这意味着最大化负实例与投影空间中每个正包的最正实例之间的距离。这可以使用判别分析的 MIL 改编或其他线性投影方法 [88-91] 来实现，在这些方法中，包分类的准确性最大化。

实例共现：实例在共享语义关系时在包中同时出现。当图片的主题在某些环境中比在另一种环境中更容易被看到时，或者当一些物体经常在一起（例如刀和叉）时，就会发生这种类型的相关性。例如，图 4 中的熊更可能出现在自然界中，而不是夜总会中。因此，观察自然片段可能有助于确定图像中是否包含鸡尾酒或熊 [92]。在 [93] 中，表明在同一个音频片段中经常听到不同的鸟类，因此 “负面” 鸟类歌曲可以帮助正确分类感兴趣的鸟类。在这些示例中，共现代表了提高准确性的机会，但是，在某些情况下，它是成功分类的必要条件。考虑 Foulds 和 Frank [17] 给出的示例，其中必须对海洋、沙漠和海滩图像进行分类。沙漠和海滩图像都可以包含沙子实例，而水实例可以在海洋和海滩图像中找到。但是，这两个实例必须同时出现在海滩图像中。大多数在集体假设 [17] 下工作的方法自然会利用共现。许多这些方法，如 BoW [70,94]、miFV [72]、FAMER [95] 或 PPMM [96] 将包表示为实例分布，间接说明共现。这也直接在张量模型 [97] 和多标签框架 [37] 中建模。

虽然对包分类很有用，但在实例分类问题中，实例的共现可能会使学习者感到困惑。如果给定的正例经常与给定的负例同时出现，则算法更有可能将负例视为正例，这在这种情况下会导致更高的误报率（FPR）。

实例和包结构：在某些问题中，同一包的实例之间甚至包之间存在底层结构 [77]。在实例遵循特定顺序或以有意义的方式相关的意义上，结构比简单的共现更复杂。捕获这种结构可能会带来更好的分类性能 [10、80、98]。结构可以是空间的、时间的、关系的甚至因果的。例如，当一个包代表一个视频序列时，所有的帧或块在时间和空间上都是有序的。例如，如果不考虑这个时间顺序，就很难区分拿走包裹或离开包裹的人。或者，在网络挖掘任务 [77] 中，网站是包，网站链接的页面是实例，表示链接在一起的网站的两个包之间存在语义关系。

提出图模型是为了更好地捕捉非独立同分布中不同实体之间的关系。MIL问题。结构可以在许多层面上被利用：图可以用来模拟包、实例或两者之间的关系 [26、77]。图强制相关对象属于同一类。或者，[99] 将包表示为捕获对象之间不同关系的图形。这些对象在所有包中共享，并且包图的所有可能子图都对应于实例。在 [78、100] 中，网页和科学论文等复杂对象被表示为图形集合。挖掘判别子图模式以创建字典。图集合由二进制特征向量表示，其中每个位对应字典中的一个子图。如果相应的子图是集合的一部分，则位设置为 1。在 [101] 中，图像中的空间结构由相似矩阵捕获，并且在 1-范数 SVM 公式中强制执行邻域一致性约束。

实例之间的时间和空间结构可以用不同的方式建模。在用于计算机视觉的 BoW 模型中，这可以通过将图像 [102、103] 或视频 [80] 划分为不同的空间和 / 或时间区域来实现。每个区域都是单独表征的，最终表示是每个区域特征向量的串联。对于音频和视频，已经使用条件随机场（CRF）[104] 和隐马尔可夫模型（HMM）[105] 等传统序列建模工具分析了实例的子序列。图像中的空间依赖性也已在 [37] 中使用 CRF 建模。

4.3. 数据分布

4.3.1. 正实例的多模态分布

一些 MIL 算法在假设正实例位于特征空间中的单个簇或区域中的假设下工作。几种早期方法就是这种情况，例如 APR [3]，它搜索一个超矩形，该矩形最大限度地包含正包中的实例，同时排除负包中的实例。多样化密度（DD）[29] 方法遵循类似的想法。这些方法定位特征空间中最接近正包中实例但远离负包中实例的点。这一点被认为是积极的概念。一些更新的方法也遵循单簇假设。CKMIL [107] 根据每个包中与单个正簇中心的接近度来定位每个包中最正的实例。在 [31] 中，分类器是一个球体，包含每个正包中的至少一个正实例，同时排除负包中的实例。[104] 中的方法采用了类似的策略。

单簇假设在分子分类等某些应用中是合理的，但在许多其他情况下存在问题。在图像分类中，目标概念可能对应很多簇。例如，图 5 显示了几张蚂蚁的图片。蚂蚁可以是黑色、红色或黄色，根据物种和种姓的不同，它们可以有翅膀和不同的体型。它们的外观也会根据视角发生变化。特征空间中的紧凑位置不太可能包含所有这些变化。

图 5

图 5. 对于相同概念的蚂蚁，特征空间中可以有多个数据簇（模式）对应于不同的姿势、颜色和种姓。（为了解释此图中对颜色的引用，读者可以参考本文的网络版本。）

许多 MIL 方法可以学习多模态正向概念，但是由于篇幅限制，将仅提及少数具有代表性的方法。首先，基于包之间距离的非参数方法，如 Citation-kNN [108] 和 MInD [93] 自然地处理所有形状的分布。简单的非参数方法通常会在 MIL 问题中产生有竞争力的结果 [57]。使用到一组原型的距离作为包表示的方法，如 DD-SVM [109] 和 MILES [4]，可以对许多正簇进行建模，因为每个不同的簇可以由不同的原型表示。基于实例空间 SVM 的方法，如 mi-SVM [6]，可以使用内核处理正实例的不相交区域。此外，在包中建模实例分布的方法，例如基于词汇的 [70] 方法自然地处理包含多个概念 / 模式的数据集。[110] 中的混合模型自然地代表了不同的正簇。

4.3.2. 非代表性负分布

在 [33] 中，指出实例概念的可学习性要求测试中的分布与训练分布相同。这对于积极的概念是正确的，然而，在一些应用中，训练数据不能完全代表消极的实例分布。例如，在提供足够的训练数据的情况下，可以合理地期望算法学习一种有意义的表示形式来捕捉人类的视觉概念。然而，由于人类存在于许多不同的环境中，从丛林到宇宙飞船，因此几乎不可能完全模拟负类分布。相反，在一些应用中，如放射照相中的肿瘤识别，健康组织区域构成负类。这些组织具有有限的外观范围，可以使用有限数量的样本进行建模。

几种方法仅对正类建模，因此可以很好地处理测试中的不同负分布。在大多数情况下，这些方法搜索包含积极概念的区域。在 APR [3] 中，这个区域是一个超矩形，而在许多其他区域中，它是一个或一组超球体 / 椭圆 [29、31、35、111]。这些方法基于到特征空间中的点（概念）或区域的距离来执行分类。距离该点足够远或在正区域之外的所有东西都被认为是负的。因此，负分布的形状并不重要。对于一些非参数方法，例如 Citation-kNN [108]，可以提出类似的论点。这些方法使用到正实例的距离，而不是正概念，因此提供了相同的优势。或者，MIL 问题可以看作是一个单类问题，其中正实例是目标类。因此，已经提出了几种使用单类 SVM 的方法 [112–114]。

第 6.6 节中的实验在负分布在训练和测试中不同的情况下比较了参考 MIL 算法。

4.4. 标签歧义

标签歧义是弱监督所固有的。在 MIL 中，这种歧义可以采取不同的形式，具体取决于问题被表述的假设。在标准 MIL 假设下，负包中的实例标签没有歧义。在这种情况下，MIL 可以被视为一种特殊的半监督问题 [67]，其中数据的标记部分仅属于一个类，并且实例在具有标签约束的集合中构建。在更宽松的 MIL 假设下，存在歧义的补充来源，例如标签上的噪声以及实例和包的不同标签空间。

4.4.1. 标签噪声

一些 MIL 算法，尤其是那些在标准 MIL 假设下工作的算法，在很大程度上依赖于包标签的正确性。例如，[57] 表明，DD 不能容忍噪声，因为在积极概念附近的单个消极实例会阻碍性能。对于 APR [60] 也提出了类似的论点，将负包错误标记为正包会导致高 FPR。在实践中，有很多情况下可能会在负包中找到正例。在某些情况下会发生标记错误，但有时标记噪声是数据固有的。例如，在计算机视觉应用中，很难保证负图像不包含正图像块：显示房屋的图像可能包含花朵，但不太可能被标记为花朵图像 [115]。类似的问题可能出现在文本分类中，其中一段包含类比并使用来自另一个主题的词。

在集体假设下工作的方法自然可以处理标签噪声。在负包中发现的正实例影响较小，因为这些方法不会仅根据单个正实例的存在来分配标签。将包表示为分布的方法 [70、71、116] 可以自然地处理嘈杂的实例，因为单个正实例不会显着改变负包的分布。通过对 NSK-kernel [73] 等实例进行平均来总结包的方法也以类似的方式提供了对噪声的鲁棒性。另一种处理噪声的策略是统计包中正例的数量，并建立正分类的阈值。这在 [17] 中被称为基于阈值的 MI 假设。[115] 提出的方法同时使用阈值和平均策略。包的实例从最积极到最不积极排名，包由排名靠前的实例的平均值和排名靠后的实例的平均值表示。平均操作减轻了负包中正实例的影响。在 [117] 中，通过使用显性集执行聚类并在类似于 MILES [4] 的包嵌入算法中选择相关实例原型来获得对标签噪声的鲁棒性。

第 6.7 节中的实验比较了参考方法对标签噪声的鲁棒性。

4.4.2. 不同的标签空间

存在 MIL 问题，其中实例的标签空间与包的标签空间不同。在某些情况下，这些空间会对应不同的粒度级别。例如，标记为汽车的包将包含标记为车轮、挡风玻璃、前灯等的实例。在其他情况下，实例标签可能没有明确的语义。图 6 显示了一个例子，其中积极的概念是斑马（由橙色虚线包围的区域表示）。该区域包含可以从斑马图片中提取的几种类型的块。但是，可以从落入该正区域的负图像中提取块。在这个例子中，从白虎、钱包和大理石蛋糕的图像中提取的一些块落入斑马概念区域。在那种情况下，块不具有人类容易理解的语义。

图 6

图 6. 这是标签不明确的实例示例。Zebra 是目标概念，与此概念相关的实例应落在由虚线分隔的区域中。然而，负面图像也可以包含落在斑马概念区域内的实例。（为了解释此图中对颜色的引用，读者可以参考本文的网络版本。）

当无法将实例分配给特定类时，在标准 MIL 假设下运行的方法（必须识别正实例）是不够的。因此，在这些情况下，有必要使用集体假设。基于词汇的方法 [70] 特别适合这种情况。他们将实例与从实例分布中发现的单词（例如原型或集群）相关联。包由这些词的分布表示。同样，使用基于与选定原型实例的距离的嵌入的方法，例如 MILES [4] 和 MILIS [118]，也可以处理此类问题。

本节中呈现的所有特征定义了各种 MIL 问题，每个问题都必须以不同的方式解决。下一节将这些特征与 MIL 的突出应用领域联系起来。

5. 应用

MIL 代表了一种强大的方法，主要用于不同的应用领域（1）解决实例自然排列在集合中的问题，以及（2）利用弱标记数据。

本节调查了 MIL 的主要应用领域。每个领域都根据第 4 节的不同问题特征进行检查（总结在表 1 中）。

表 1

表 1 不同应用领域文献中与 MIL 相关的典型问题特征（图例：√ 可能有中等影响，√√ 可能对性能有较大影响）。

5.1. 生物学和化学

由于无法观察单个实例类，生物学和化学中的问题通常可以自然地表述为 MIL。例如，在 Dietterich 等人 [3] 的开创性论文中提出的分子分类任务中，目标是预测分子是否会与麝香受体结合。

每个分子可以采用多种构象，具有不同的结合强度。不可能观察到单个构象的结合强度，但可以观察到构象组的结合强度，因此 MIL 问题公式。从那时起，MIL 已在许多药物设计和生物应用中得到应用。通常，该方法类似于 Dietterich 的方法：将复杂的化学或生物实体（化合物、分子、基因等）建模为包。这些实体由可以引起感兴趣的效果的部分或区域组成。目标是对未知包进行分类，有时还可以识别目击者，以更好地了解生物或化学现象的潜在机制。MIL 已被用于预测药物的生物利用度 [46]、预测肽与主要组织相容性复合物分子的结合亲和力 [45]、发现控制基因表达的结合位点 [119、120] 和预测基因功能 [121]。

本节中提出的问题性质各异，但有一些特征适用于大多数问题。例如，在大多数情况下，包代表同一实体（例如药物、基因等）的许多排列或观点，这转化为包内的高相似性。此外，许多应用程序需要量化，使用排名或回归 [40]（例如量化分子的结合强度），这比分类更困难且记录更少。某些特性仅适用于一种类型的应用程序。像 DNA 序列这样的物体会产生结构化的包，而同一分子的许多构象则不会。最后，一些问题需要识别负责影响的实体（例如药物结合）。这需要具有实例分类功能的方法。

5.2. 计算机视觉

MIL 用于计算机视觉有两个主要原因：使用不同的子概念集来表征复杂的视觉概念，以及从弱标记数据中学习。接下来的小节描述了 MIL 如何用于基于内容的图像检索（CBIR）和对象定位。MIL 在医学影像界的发展势头迅猛，一个小节也将专门介绍这个应用领域。

5.2.1. 基于内容的图像检索

CBIR 可能是 MIL 最流行的应用。解决这个问题的出版物列表很长 [4–7、112、122–125]。CBIR 中的任务是根据图像包含的对象 / 概念对图像进行分类。对象的准确定位并不重要，这意味着它主要是一个包分类问题。通常，图像被分割成更小的部分或片段，然后由特征向量描述。每个片段对应一个实例，而整个图像对应一个包。可以通过多种方式对图像进行分区，这些方式在 [54] 中进行了比较。例如，可以使用规则网格 [123]、关键点 [94] 或语义区域 [65、109] 对图像进行分区。在后一种情况下，使用最先进的分割算法对图像进行分割。这限制了实例歧义，因为段往往只包含一个对象。

视觉数据对 MIL 算法提出了几个挑战，主要是因为图像是数据非独立同分布的一个很好的例子。一方面，某些物体比其他物体（例如鸟和天空）更有可能同时出现在同一张图片中。利用这些共现的方法往往更成功。此外，一个包可以包含许多相似的实例，特别是如果这些实例是使用密集网格采样获得的。使用分割算法的方法较少受到这个问题的影响，因为分割往往对应于单个对象。有时，图像由多个概念组成，这意味着在集体假设下工作的方法表现更好。此外，处理图像通常意味着处理较大的类内可变性。例如，同一物体在不同的视角下可能会呈现出相当大的不同。许多类型的对象也来是各种形状和颜色。这意味着单峰分布不太可能充分代表整个类别。最后，背景可能会有很大差异，因此很难学习对每个可能的背景对象建模的负分布。

5.2.2. 对象定位和分割

在 MIL 中，图像（或视频）中对象的定位意味着从包中学习以对实例进行分类。通常，MIL 用于在弱标记图像数据集上训练视觉对象识别系统。换句话说，标签是根据它们包含的对象分配给整个图像的。这些对象不必在前景中，并且图像可以包含多个对象。相反，在强监督应用程序中，指示每个对象位置的边界框与对象标签一起提供。在其他情况下，改为提供像素级标记。这些边界框或像素标记通常是手动指定的，因此需要大量的人力。计算机视觉社区转向 MIL，以利用互联网上发现的大量弱标记图像来构建对象检测器。弱监督可以来自描述句子 [126-128]、网络搜索引擎结果 [129]、与相似图像相关的标签以及在与图像相关的网页上找到的词 [2]。

在用于对象定位的几种方法中，包由许多对应于实例 [1、59、130–132] 的候选边界框组成。包含目标对象的最佳边界框被假定为包中最积极的实例。努力致力于使用传统分割算法（例如约束参数最小切割 [133]、JSEG [37] 或多尺度组合分组 [134]）来定位对象并在像素级对其进行分割。或者，可以通过将图像的每个像素作为实例 [135] 来实现分割。

实例分类也已应用于视频中。它已被用于识别复杂事件，例如 “尝试玩棋盘戏法” 或 “生日派对” [8、136]。几个概念构成了这些复杂的事件。这些概念的证据有时只会持续很短的时间，并且很难在视频中呈现的信息总量中观察到。为了解决这个问题，视频序列被分成较短的序列（实例），这些序列稍后被单独分类。[137] 中也使用了这个问题公式来识别不适合儿童的场景。同样在视频中，提出了 MIL 方法来执行对象跟踪 [61、138、139]。例如，在 [61] 中，一个分类器被在线训练以识别和跟踪帧序列中感兴趣的对象。跟踪器提出组成包的候选窗口，用于训练 MIL 分类器。

手动选择一组有限的类来表示一组图像中的每个对象可能很困难。因此，有人提议在类发现的同时执行对象定位 [129]。该方法类似于多实例聚类方法 [48、49]，但使用显着性检测器生成包，从正包中删除背景对象以获得更高的簇纯度。还提出了一种基于多实例聚类的方法来从视频中发现一组动作（子动作）以创建动作的中级表示 [140]。

对象定位容易受到与 CBIR 相同的挑战：图像中的实例是相关的，表现出高度相似性，并且包中存在空间（和视频的时间）结构。物体可以变形，有不同的外观，可以从不同的角度观察。因此，单个概念往往由多峰分布表示，负分布不能完全被训练集捕获。然而，对象定位与 CBIR 不同，因为它是一个实例分类问题，这意味着很多包级算法是不适用的。一些作者还指出，在这种情况下，MIL 算法对初始化很敏感 [9、130]。

5.2.3. 计算机辅助诊断与检测

MIL 在医疗应用中越来越受欢迎。弱标签，例如受试者的整体诊断，通常比强标签更容易获得，例如医学扫描中的异常轮廓。MIL 框架适用于这种情况，因为患者的医学扫描中既有异常区域也有健康区域，而健康受试者只有健康区域。使用的疾病和图像模式非常多样；应用包括组织病理学图像中的癌症分类 [141]、视网膜图像中的糖尿病 [142]、脑 MR 中的痴呆 [143]、X 射线图像中的结核病 [144]、CT 中的慢性肺病分类 [145] 和其他的。

与其他一般计算机视觉任务一样，这些应用程序有两个主要目标：诊断（即预测对象的标签）和检测或分割（即预测部分扫描的标签）。这些部分可以是像素或体素（3D 像素）、图像块或感兴趣区域。不同的应用程序追求一个或两个目标，并且有不同的原因这样做。

当重点放在对包进行分类时，MIL 分类器会受益于使用有关实例的共现和结构的信息。例如，在 [144] 中，仅使用标记为健康或含有结核病的 X 射线图像进行训练的 MIL 分类器优于其监督版本，该分类器是在结核病灶轮廓上进行训练的。在根据胸部计算机断层扫描图像对慢性阻塞性肺疾病（COPD）进行分类的任务中也观察到了类似的结果 [145]。

专注于对实例进行分类的文献不太常见，这可能是缺乏实例标记数据集的结果。然而，缺少实例标签通常是首先使用 MIL 的动机，这意味着如果要将这些分类器转化为临床实践，则必须进行实例级评估。一些论文不执行实例级评估，因为分类器不提供此类输出 [143]，但声明这将是未来该方法的有用扩展。其他人提供实例标签但无法访问基本事实，因此求助于更定性的评估。例如，[145] 检查被分类器分类为 “最积极” 的实例是否具有与文献中已知的相似的强度分布。最后，当实例级标签可用时，可以对分类器进行定量和 / 或定性评估。在 [58、142、144] 中进行了定量评估。此外，分类器的输出可以显示在图像中，这是一种可视化结果的可解释方式。在 [144] 中，mi-SVM 分类器为图像中的每个像素提供局部实值结核病异常分数，然后将其可视化为 X 射线图像顶部的热图。

CAD 与其他约束较少的计算机视觉任务共享许多关键挑战。根据采样——可以在密集网格 [58、144]、随机 [145] 或根据约束 [143] 进行——实例可以显示不同程度的相似性。在许多病理学中，异常可能包括不同的亚型，它们具有不同的外观，从而导致多模态概念分布。此外，患者之间的差异，例如年龄、性别和体重，以及图像采集方面的差异也会导致较大的类内变异性。另一方面，负分布（健康组织）比在计算机视觉应用中更受限制。这意味着尝试捕获和建模负分布是合理的，这在无约束图像识别问题中非常困难。CAD 问题的另一个特殊性是它们自然适合具有实值输出，因为疾病可以有不同的阶段，尽管在应用现成算法时通常不会考虑这一点。例如，慢性肺部疾病 COPD 有 4 个不同的阶段，但 [145] 将它们都视为阳性类别。在评估过程中，轻度阶段最常被错误地归类为健康阶段。Tong 等人 [143] 考虑了四种可能类别（健康、两种类型的轻度认知障碍和阿尔茨海默氏症）中的二元分类任务，而这些可以被视为连续尺度。最后，CAD 可以表述为一个实例和一个包分类任务。

5.3. 文档分类和网页挖掘

考虑到词包（BoW）模型是在集体假设下工作的 MIL 模型，文档分类是 MIL 最早（1954 年）的应用之一 [146]。BoW 将文本表示为频率直方图，量化文本中每个单词的出现。在这种情况下，文本和网页是需要 MIL 分类框架的多部分实体。

文本通常包含多个主题，很容易建模为包。文本分类问题可以表述为不同级别的 MIL。在最低级别，实例是类似于 BoW 模型中的单词。或者，实例可以是句子 [44、147]、段落 [6、148] 或段落 [18]。在 [6] 中，包是文本文档，它们被分成与实例对应的重叠段落。这些段落由一个二进制向量表示，其中每个元素都是一个医学术语。任务是对文本进行分类。在 [149] 中，实例是来自不同新闻组的短文。包是帖子的集合，任务是确定一组帖子是否包含对感兴趣主题的引用。在 [18] 中，任务包括识别包含将蛋白质与特定成分、过程或功能联系起来的段落的文本。在这种情况下，段落是实例，而整个文本是包。这些段落由一个 BoW 以及与蛋白质名称和关键术语的距离表示。在 [150] 中，分析电子邮件的内容以检测垃圾邮件。逃避垃圾邮件过滤器的一种常见方法是在邮件中包含与垃圾邮件无关的词。将电子邮件表示为段落包被证明是应对这些攻击的有效方法。在 [44、147、151、152] 中，MIL 用于根据为整个用户评论提供的标签来推断单个句子中表达的情绪。MIL 也被用于发现命名实体之间的关系 [11]。在这种情况下，bags 是包含两个可能表达也可能不表达目标关系的词的句子的集合（例如，“Rick Astley” 住在 “Montreal”）。如果这两个词以指定的方式相关，则包中的某些句子将表达这种关系。如果不是这种情况，则没有句子会表明关系，因此使用了 MIL 公式。

也可以使用 MIL 框架自然地对网页进行建模。就像文本一样，网页通常包含许多主题。例如，新闻频道网站包含多篇关于不同主题的文章。MIL 已用于基于用户浏览历史的 Web 索引页面推荐 [153、154]。网页索引页面包含链接、标题，有时还包含网页的简短描述。在这种情况下，Web 索引页是一个包，链接的网页是实例。按照标准的 MIL 假设，假设如果 Web 索引页面被标记为收藏，则用户至少对链接到它的页面之一感兴趣。网页由它们包含的最频繁术语的集合表示。在上下文网络广告中，广告商更愿意避免某些包含敏感内容（如战争或色情内容）的页面。在 [147] 中，MIL 分类器评估网页的各个部分以识别适合广告的网页。

文本数据对 MIL 提出了特殊的挑战。大多数时候，实例是非独立同分布的。根据上下文，单词可能具有不同的含义，因此，在此类应用程序中，共现很重要。虽然 BoW 方法在某种程度上是成功的，但结构是传达重要语义信息的句子的重要组成部分。通常，只有小段落或特定单词指示文档的类别，这意味着 WR 可能非常低。根据任务和问题的表述，可以执行包和实例分类。此外，与其他应用程序相比，文本分类可能会带来额外的困难。当文本由词频特征（例如 BoW）表示时，数据非常稀疏和高维 [6]。使用类欧几里得距离度量的分类器通常难以处理此类数据。这些分布是高度多峰的，很难充分表示负数据的分布。

5.4. 其他应用

MIL 公式已经找到了进入各种其他应用领域的途径。在本节中，我们将介绍 MIL 的一些不太常见的应用及其各自的公式。

强化学习（RL）与 MIL 有一些相似之处。在这两种情况下，都只为实例提供了较弱的监督。在 RL 中，奖励（弱监督）被分配给状态 / 动作对。状态/动作对获得的奖励不一定与其直接相关，但可能与之前的动作和状态相关。考虑一个学习如何下棋的 RL 智能体。代理人仅在游戏结束时获得奖励（或惩罚）。换句话说，为动作 / 状态对（实例）的集合（包）提供标签。这种对应促使使用 MIL 来通过在任务中发现子目标来加速 RL [99]。导致这些子目标实现的动作 / 状态对实际上是成功事件中的积极实例。RL 任务的主要挑战是考虑包中的结构和标签噪声，因为可以在错误的序列中找到好的动作。

就像图像一样，一些声音分类任务可以转换为 MIL。在 [155] 中，目标是自动确定音乐片段的类型。在训练中，为整个专辑或艺术家提供标签，但不是为每个摘录提供标签。这些包是同一位艺术家或专辑的节选集。可以在同一张专辑或同一位艺术家中找到不同类型的音乐，因此包中可能包含正面和负面的实例。在 [12] 中，MIL 用于识别野外无人值守麦克风录制的鸟类歌曲。声音序列包含几种类型的鸟类和其他噪音。目的是在只对弱标记的声音文件进行训练的同时，单独识别每一首鸟鸣。

一些方法将音频信号表示为频谱图，并使用图像识别技术来执行识别 [156]。这个想法已被用于带有梯度直方图的鸟鸣识别 [157]。在 [158] 中，人格特征是从表示为 BoW 框架中的频谱图的语音信号中推断出来的。在那种情况下，整个语音信号都是包，而频谱图的一小部分是实例。BoW 框架已在 [159] 中以类似的方式使用，但是，在这种情况下，实例是表示 1s 长音频段的倒谱特征向量。根据声音的表示方式，音频分类提出了不同的挑战。例如，当声音信号表示为时间序列时，捕获结构很重要。然而，在 BoW 框架中，不同标记的共现将更为重要。在许多情况下，与捕获条件相关的背景噪声会导致包内的高相似性。

除音频分类外，时间序列还存在于多种应用中。例如，在 [105、160] 中，MIL 用于从可穿戴身体传感器识别人类活动。弱监督来自用户说明在给定时间段内执行了哪些活动。通常，活动不会跨越整个时期，每个时期可能包含不同的活动。在此设置中，实例是子周期，而整个周期是包。类似的模型用于预测硬盘驱动器故障 [161]。在这种情况下，时间序列是一组定期对硬盘驱动器进行的测量。目标是预测产品何时会出现故障。时间序列意味着包中的结构不容忽视。

在 [162、163] 中，MIL 分类器从探地雷达信号中检测埋藏的地雷。当在给定的 GPS 坐标处进行检测时，将在土壤的不同深度进行测量。每个检测位置都是一个包，包含不同深度的特征向量。

在 [29] 中，MIL 用于选择股票。正包是通过汇集每月表现最好的 100 只股票创建的，而负包包含 5 只表现最差的股票。实例分类器根据这些包选择最佳股票。

在 [99] 中，一种在数据中学习关系结构的方法可以预测哪些电影将获得提名。一部电影由一个图表表示，该图表模拟了它与演员、工作室、流派、发行日期等的关系。MIL 算法识别哪个子图解释了提名以推断测试用例的成功。包和实例之间的这种结构关系类似于网页分类问题。

6. 实验

在本节中，使用数据集比较了 16 种参考方法，这些数据集可以阐明第 4 节中讨论的一些问题特征。进行这些实验是为了展示问题特征如何影响 MIL 算法的行为，并证明这些特征不能在设计或比较 MIL 算法时被忽略。选择了四个特征，每个特征来自不同的类别，以表示特征谱。算法在实例分类任务上进行了比较，在不同的 WR 下，具有不可观察的负分布和不同程度的标签噪声。

选择这些特征是因为它们的影响可以被隔离并且很容易参数化。之所以选择实验中使用的参考方法，是因为它们代表了大多数方法家族并包括最广泛使用的参考方法。所有实验都是使用 Matlab 和 MIL 工具箱 [164] 和 LAMDA 网站的一些实现进行的。接下来我们描述实验中使用的参考方法。这些方法根据类似于 [15] 的分类法的表示空间进行分组。实例空间方法分别对每个实例进行分类，并组合实例标签以将包分配给一个类。包空间方法不分类，至少明确地，单独的实例。包空间方法采用以下两种策略之一：使用适当的集合或分布距离度量来比较包之间的距离，或者对包的内容进行编码以获得在监督学习环境中使用的总结表示。

6.1. 实例空间方法

SI-SVM、SI-SVM-TH 和 SI-kNN：这些本身不是 MIL 方法，但这种类型的方法已在许多论文 [18、21、27] 中用作参考点，以表明使用 MIL 方法而不是常规监督算法的针对性。在这些算法中，每个实例都被分配了其包的标签，并丢弃了包信息。在测试中，分类器为每个实例分配一个标签，如果一个包中至少包含一个正例，则该包为正例。对于 SI-SVM-TH，将检测到的正例数与针对训练数据优化的阈值进行比较。

MI-SVM 和 mi-SVM [6]：这些算法是转导 SVM。实例继承了它们的包标签。SVM 经过训练并对数据集中的每个实例进行分类。然后使用新的标签分配对其进行重新训练。重复此过程，直到标签保持稳定。生成的分类器用于对测试实例进行分类。MI-SVM 只使用每个包中最积极的实例进行训练，而 mi-SVM 使用所有实例。

EM-DD [35]：DD [29] 测量特征空间中的点属于给定邻域实例类比例的正类的概率。EM-DD 使用 Expectation-Maximization 算法来定位 DD 函数的最大值。分类基于距此最大点的距离。

RSIS [30]：该方法使用 [53] 中引入的基于随机子间距和聚类的过程，以概率方式识别正包中的证人。使用实例的概率标签对训练子集进行采样，以训练 SVM 的集合。

MIL-Boost [59]：本文中使用的 MIL-Boost 算法是 [62] 中提出的算法的推广。该方法与梯度提升 [165] 基本相同，只是损失函数基于包分类误差。实例被单独分类，它们的标签被组合以获得包标签。

6.2. 包空间方法

C-kNN [108]：这是 kNN 对 MIL 问题的改编。使用最小 Hausdorff 距离测量两个包之间的距离。C-kNN 依赖于受研究论文中引用和参考文献启发的两级投票方案。该算法在 [66] 中被改编以执行实例分类。

MInD [93]：使用这种方法，每个包都由一个向量编码，该向量的字段与训练数据集中的其他包不同。常规监督分类器（在本例中为 SVM）对这些特征向量进行分类。论文中提出了许多相异性度量，但 meanmin 提供了最好的整体性能，并将在本文中使用。

CCE [36]：该算法基于聚类和分类器集成。首先，使用固定数量的簇对特征空间进行聚类。包表示为二进制向量，其中每个位对应一个簇。当一个包中的至少一个实例被分配给它的集群时，一个位被设置为 1。二进制代码用于训练集成中的分类器之一。通过每次使用不同数量的集群在集合中创建多样性。

MILES [4]：在通过嵌入式实例选择（MILES）进行的多实例学习中，SVM 对由包含与所选原型的最大相似性的特征向量表示的包进行分类。原型是来自 1-norm SVM 选择的训练数据的实例。实例分类依赖于表示实例对包标签的贡献的分数。

NSK-SVM [73]：归一化集内核（NSK）基本上平均两个包中包含的所有实例之间的距离。内核在 SVM 框架中用于执行包分类。

miGraph [10]：此方法通过图表示每个包，其中实例对应于节点。图中标识了派系以调整实例权重。属于大集团的实例具有较低的权重，因此在对实例进行平均时，包中存在的每个概念都具有相同的表示。图内核捕获包之间的相似性并用于 SVM。

BoW-SVM：创建具有代表性词的字典是使用 BoW 方法的第一步。这是通过对所有训练实例 [15] 执行 k 均值聚类，使用 BoWSVM 实现的。接下来，实例由字典中包含的最相似的词表示。包由单词的频率直方图表示。直方图由 SVM 使用适合直方图比较的核（在本例中为指数 $\mathcal{X}^2$ ）进行分类

EMD-SVM：地球移动器距离（EMD）[116] 是两个分布之间差异的度量。每个包都是实例的分布，EMD 用于创建 SVM 中使用的内核。

6.3. 数据集

Spatially Independent, Variable Area, and Lighting（SIVAL） [166]：该数据集包含 500 张图像，每个图像由 [149] 分割和手动标记。它包含 25 类在各种环境中从不同视角拍摄的复杂物体。每个包都是一个图像，分为大约 30 个部分。一个 30 维的特征向量对每个片段的颜色、纹理和相邻信息进行编码。每个类有 60 张图像，依次被视为正类。从其他 24 个类别中的每个类别中随机选择 5 张图像产生 120 个负包。WR 平均为 25.5%，但介于 3.1% 至 90.6% 之间。在这个数据集中，与其他图像数据集中不同，感兴趣的对象和背景之间的共现信息是不存在的，因为所有 25 个对象都是在相同的环境中拍摄的。

Brids [12]：该数据集的包对应于 10s 的一种或多种鸟类歌曲录音。记录在时间上被分段以创建属于特定鸟类或背景噪音的实例。这 10,232 个实例由 38 维特征向量表示。读者应参阅原始论文以了解有关这些功能的详细信息。数据集中有 13 种鸟类，每种鸟类依次被视为正类。因此，可以从该数据集中生成 13 个问题。在这个数据集中，低 WR 带来了挑战，特别是因为它在包中不是恒定的。此外，包类有时会严重失衡。

Newsgroups [149]：新闻组数据集来源于20个新闻组 [167] 数据集语料库。它包含来自新闻组的 20 个主题的帖子。每个帖子都由 200 项频率逆文档频率（TFIDF）特征表示。这种表示通常会产生稀疏向量，其中每个元素代表文本中的词频，按其在整个语料库中的频率进行缩放。当其中一个科目被选为正类时，其他 19 个科目都被用作负类。这些包是来自不同主题的帖子的集合。阳性包平均包含 3.7% 的阳性实例。这个问题是半综合的，不对应于真实世界的应用程序。因此，没有可利用的共现信息、包内相似性或包结构。然而，表示产生稀疏数据，这与之前的两个数据集不同，并且代表文本应用程序。

HEPMASS [168]：该数据集的实例来自 HEPMASS 数据集。它包含超过 10M 的模拟粒子碰撞的实例。正类对应于产生奇异粒子的碰撞，而负类是背景噪声。每个实例都由一个 27 维特征向量表示，其中包含低级运动学测量及其组合以创建更高级别的质量特征（有关更多详细信息，请参见原始论文）。对于每个 WR 值，会随机生成 10 个版本的 MIL 数据。对于每个版本，训练集和测试集包含 50 个正包和 50 个由 100 个实例组成的负包。

Letters [169]：这个半合成的 MIL 数据集使用来自 Letter Recognition 数据集的实例。它总共包含 20k 个实例，分别代表英文字母表中的 26 个字母。这些字母中的每一个都可以看作是一个概念，用于创建不同的正负分布。每个字母都由一个标准化的 16 维特征向量编码。读者可参阅原论文了解更多详情。在 WR 实验中，对于每个 WR 值，随机生成 10 个版本的 MIL 数据集。每个版本都有一个训练集和一个测试集。两组都包含 50 个正包和 50 个负包，每个包包含 20 个实例。在 positive bags 中，witness 是从随机选择的 3 个代表 positive concepts 的字母中抽样得到的。所有其他字母都被视为否定概念。对于负类建模实验，数据集分为训练和测试分区，每个分区包含 200 个包。每个包包含 20 个实例。包类等比例，WR 为 20%。和以前一样，正实例是来自 3 个随机选择的字母的样本。剩下的一半字母构成初始负分布，另一半构成未知负分布。

Gaussian toy data：在这个合成数据集中，正实例是从代表正概念的 20 维多元高斯分布（ $\mathcal{G}\left(\mu,\ \mathbf{\Sigma}\right)$ ）中提取的。 $\mu$ 的值取自 $\mathcal{U}\left(-3,\ 3\right)$ 。协方差矩阵（ $\mathbf{\Sigma}$ ）是随机生成的半定正矩阵，其中对角线值按比例缩放到 $[0, 0.1]$ 。负样本是从随机生成的 10 个相似高斯分布的混合样本中抽取的。这种分布逐渐被另一种随机生成的混合物所取代。数据集在生成后被标准化。测试和训练分区都包含 100 个包。每个包中有 20 个实例，WR 为 20%。

6.4. 实例级分类

在本节中，具有实例分类功能的参考方法在三个基准数据集上进行了比较：SIVAL、Birds 和 Newsgroups。选择这些数据集是因为它们代表了三个不同的应用领域，并且因为提供了实例标签，这在 MIL 基准数据集中有些不常见。已经有一些包级分类的比较研究，我们建议有兴趣的读者参考 [15、58]。

实验是使用嵌套交叉验证协议进行的 [170]。它由两个交叉验证循环组成。外循环评估算法在测试中的性能，内循环用于优化算法超参数。这意味着对于外循环的每个测试折叠，超参数优化是通过网格搜索执行的。外环测试折叠的结果报告了平均性能。

实例分类问题通常表现出类别不平衡，尤其是当 WR 较小时。在这些情况下，在准确性方面比较算法可能会产生误导。在本节中，将根据未加权平均召回率（UAR）和 F1 分数对算法进行比较。UAR 是每个类别的平均准确度。F1 分数是精确率和召回率之间的调和平均值。这 3 个数据集转化为 58 个不同的问题。为了便于比较。图 7 和图 8 以显着性水平为 1% 的临界差异图 [171] 的形式呈现结果。

图 7

图 7. UAR 在实例分类上的临界差异图（α=0.01）。数字越高越好。

图 8

图 8. 实例分类 F1 分数的临界差异图（α=0.01）。数字越高越好。

结果表明，实例分类的成功策略是丢弃包信息。对于这两个指标，最好的算法是 mi-SVM 和 SI-SVM，它们将包标签分配给每个实例，然后将它们视为原子元素。这与 [58] 中获得的结果一致。这两种方法密切相关，因为 SI-SVM 对应于 mi-SVM 的第一次迭代。SI-kNN 也产生有竞争力的结果并使用相同的策略。即使 Birds 和 Newsgroups 数据集都具有低 WR，监督方法似乎比使用包准确性作为优化目标的 MIL 方法（MILES、EMDD 和 MIL Boost）更适合此任务。MI-SVM 和 RSIS 依赖于识别每个包中最积极的实例。这种策略在某种程度上似乎是成功的，但容易忽略被同一个包中的其他人支配的更模糊的积极实例。在各个数据集上获得的结果中也观察到了这些结论。

6.5. 包构成：见证率

这些实验研究了 WR 对性能的影响。创建了两个半合成数据集以允许控制 WR，并更详细地观察参考方法的行为：Letters 和 HEPMASS。这些数据集是根据人工安排在包中的监督问题创建的。这样做的好处是可以消除数据中的任何结构和共现，从而更好地隔离 WR 的影响。原始数据集必须拥有大量实例才能模拟低 WR。在 Letters 数据集中，positive 类包含三个概念，而在 HEPMASS 中只有一个概念，这对某些算法有影响。

所有超参数都针对每个版本的数据集进行了优化，并使用网格搜索和交叉验证对每个 WR 值进行了优化。图 9-12 中报告的结果是 10 个生成版本中每个版本的测试数据的平均结果。使用 AUC 和 UAR 比较性能。

图 9

图 9. 随着见证率的增加，用于对 Letters 数据集进行实例分类的 MIL 算法的平均性能。

图 10

图 10. 随着见证率的增加，用于 Letters 数据集包分类的 MIL 算法的平均性能。

图 11

图 11. 随着见证率的增加，MIL 算法在 HEPMASS 数据集上进行实例分类的平均性能。

图 12

图 12. 随着见证率的增加，MIL 算法在 HEPMASS 数据集上进行包分类的平均性能。

通过检查实验结果可以得出几个结论。首先，对于所有方法，较低的 WR 转化为较低的准确性。然而，图 9 显示，对于实例分类任务，较高的 WR 并不一定意味着所有方法的准确性都较高。事实上，对于 Letters 数据集，使用了三个不同的字母来创建正实例，这使得正分布具有多峰性。如第 6.4 节所述，一些方法针对包分类进行了优化（EM-DD、MI-SVM、MILES、MILBoost、RSIS-EoSVM）。在这些情况下，一旦一个字母被分配到正包中的正类，包就被正确分类了。剩余的正字母可以忽略，算法仍然实现了完美的包分类。这可以通过比较图 1 和 2 观察到。通过将图 9 和图 11 与图 10 和 12 所示，针对包分类优化的方法在实例分类方面的准确率较低，但在对包进行分类时，它们的准确率与其他基于实例的方法相当。这部分解释了观察结果 [16、20]，即一项任务的算法性能并不总是代表另一项任务的性能。

结果如图。图 9 和 11 表明，当 WR 超过 50% 时，监督分类器在实例分类方面与最佳 MIL 分类器一样有效。在这种情况下，错误标记的负面实例只是训练集中的噪声，这很容易被 SVM 或 SI-kNN 的投票方案处理。即使 WR 低于 50%，监督方法的性能也优于 MIL 的一些对应方法。与其他方法相比，当 WR 处于最低时，MI-SVM 具有更高的 AUC 性能。这是因为正包由它们的单个最正实例表示。当 WR 处于最小值时，每个包只有一个证人，这与此表示一致。

包分类的结果在图 10 和 12 中报告。为了更容易地比较基于实例和基于包的方法，表 2 中报告了所有实验的平均排名。这些结果表明，一般来说，包空间方法在较高 WR 时优于其实例空间方法（≥50%）。在较低的 WR（5–10%）下，两种方法之间的差异较小。然而，在 Letters 实验中，MI-SVM 以显着优势优于所有其他方法，而在 HEPMASS 实验中，EMDSVM 和 NSK-SVM 表现更好。这表明，在较低的 WR 下，选择方法时还需要考虑其他因素，例如正分布和负分布的形状以及 WR 在正包中的一致性。

表 2

表 2 包分类任务中基于实例的方法与基于包的方法的排名。

6.6. 数据分布：非代表性负分布

在某些应用中，训练数据集不能完全表示负实例分布。本节中的实验衡量 MIL 算法处理测试和训练中不同的负分布的能力。我们在这些实验中使用了两个数据集：Letters 数据集和专门为此实验创建的合成高斯玩具数据集。使用这两个数据集可以控制因素以独立于其他问题特征来衡量不断变化的负分布的影响。在每个实验中，有两种不同的负面实例分布。第一个用于生成训练数据。对于测试数据集，起初，负样本也是从同一个分布中采样的，但逐渐被第二个分布中的样本所取代。正实例是从训练集和测试集中的相同分布中采样的。例如，使用 Letters 数据集，这意味着在训练数据集中，字母 A、B 和 C 被用作反例。逐渐地，来自 A、B 和 C 的实例被来自 D、E 和 F 的实例所取代。

实验结果如图 13–16 所示。表明当测试负分布与训练分布不同时，大多数算法的性能都会下降。然而，CkNN 表现出相反的行为。测试实例与训练实例的差异越大，性能就越好。这是因为 C-kNN 使用最小 Hausdorff 距离作为包之间的相似性度量。这是每个包中最近的两个实例之间的距离。如果负实例来自所有包中的相同分布，则即使包是正的，最接近的实例也可能都来自负分布。如果包有不同的标签，就会导致错误分类。如果负测试实例与训练集中的不同，则两个负实例之间的距离很可能大于两个正实例之间的距离，这两个正实例在两个集合中来自相同的分布。因此，发现阳性包更接近其他阳性包，从而导致更高的准确性。

图 13

图 13. MIL 算法在 Letters 数据上进行实例分类的平均性能，因为测试负实例分布越来越不同于训练分布。

图 14

图 14. 随着测试负实例分布越来越不同于训练分布，MIL 算法对 Letters 数据进行包分类的平均性能。

图 15

图 15. MIL 算法在高斯玩具数据上进行实例分类的平均性能，因为测试负实例分布越来越不同于训练分布。

图 16

图 16. 随着测试负实例分布越来越不同于训练分布，MIL 算法对高斯玩具数据包分类的平均性能。

两个数据集的结果表明，包空间方法更适合处理新的负分布。这可能有助于他们在负分布难以建模的计算机视觉应用中取得成功。在图 14 中，包分类的 AUC 对于大多数方法来说是稳定的，而它们的准确性却下降了。这表明算法学习到的得分函数仍然适用于新的分布，但需要调整阈值。这一观察结果激发了在实践中使用自适应方法来在新数据到达时调整决策阈值。

6.7. 标签歧义：标签噪声

人们普遍认为包标签提供的弱监管是准确的。然而，如第 4.4 节所述，情况并非总是如此。在这里，我们测量参考算法处理噪声标签的能力。实验在 Letters 和 SIVAL 数据集上进行。在这些实验中，训练集中越来越多的包标签被倒置。当 50% 的标签被倒置时，两个类都包含相等比例的真正正负包。之后，50% 的标签被反转，这个问题可以看作是同样的分类问题，负类被认为是正类。

图 17

图 17. MIL 算法在标签噪声增加的情况下对 Letters 数据进行实例分类的平均性能。

图 18

图 18. MIL 算法在标签噪声增加的情况下对 SIVAL 数据进行实例分类的平均性能。

图 19

图 19. 包空间 MIL 算法在标签噪声增加的情况下对 Letters 数据进行包分类的平均性能。

图 20

图 20. 包空间 MIL 算法对 SIVAL 数据进行包分类的平均性能，标签噪声增加。

对于包分类，实验表明标签噪声鲁棒性与 MIL 分类器使用的决策空间有关。使用嵌入策略（例如 EMD 内核、miGraph、MInD）的包空间方法对标签噪声最稳健。这些方法的结果在图 19 和 20 中报告。它们性能曲线的对称性表明这些嵌入方法不区分正类和负类，因此它们的标签可以无缝互换。嵌入算法在单个特征向量中对包进行编码，并将包分类问题视为监督问题。在这方面，该方法的稳健性取决于给定方法使用的分类器类型。

本实验中的所有方法都使用已知易受标签噪声影响的 SVM [172]。由于所有分类器都是 SVM，因此比较嵌入技术更容易。性能曲线形状显示哪种嵌入类型最抗噪声。MInD 和 EMD-kernel 都保持其性能水平，直到有 30% 的错误标记包，而 MILES、NSK-SVM 和 miGraph 的性能随着噪声的增加而稳步下降。MInD 和 EMD 内核将包描述为内核中其他包之间的距离。EMD-kernel 计算实例分布之间的距离，而 MInD 平均所有实例之间的最小距离，这也可以看作是两个分布之间的距离。CCE 还代表包中的实例分布，并在 SIVAL 上的实验中表现出类似的抗噪声能力。基于这些观察，将包表征为实例分布似乎是处理标签噪声的成功策略。

虽然嵌入方法表征了包中实例的分布，但在标准 MIL 假设下工作的 MIL 方法（例如 mi-SVM、MILBoost 和 MI-SVM）使用不同的方法。这些实例空间方法学习识别证人，作为包分类的一个步骤。在那种情况下，正类和负类是不等价的。这由图 21 和 22 中性能曲线的不对称性表明。对于这些方法中的大多数，当大多数标签被倒置时，性能倾向于随机分类。对于实例空间方法，正概念必须具有凝聚力并在正包之间共享，同时排除在负包之外。当 positive bags 被错误标记时，positive instances 会在 negative bags 中被发现，这使得识别 positive 概念变得困难。这就是实例空间方法更容易受到噪声影响的原因。如图所示。如图 21 和 22 所示，如果标签噪声水平超过 10%，所有方法的性能都会稳步下降。这与图 17 和 18 中观察到的实例分类性能下降有关。实验没有揭示比其他实例分类更能抗噪声的策略。

图 21

图21. 随着标签噪声的增加，实例空间 MIL 算法在 Letters 数据上的包分类的平均性能。

图 22

图22. 在标签噪声增加的情况下，用于对 SIVAL 数据进行袋分类的实例空间 MIL 算法的平均性能。

简而言之，包空间和实例空间方法的不同之处在于它们对积极概念识别的依赖性。这种识别过程高度依赖于包标签的正确性，这阻碍了实例空间方法在嘈杂问题中的表现。

7. 讨论

本文中确定的问题特征允许讨论 MIL 算法的验证过程。讨论还基于上一节中实验的观察结果。在讨论了 MIL 的实际考虑因素（如可用软件）和 MIL 方法的复杂性之后，我们确定了 MIL 的有趣研究途径。

7.1. 基准数据集

本文讨论了 MIL 问题的几个固有特征。已经确定算法会根据这些特征执行不同的操作。然而，即使到今天，许多方法也仅使用 Musk 和 Tiger / Elephant / Fox（TEF）数据集进行验证。这些基准数据集存在几个问题。首先，它们只带来了前面讨论的一些挑战。例如，这些数据集的 WR 很高。由于未提供实例标签，因此真实的 WR 是未知的。然而，据一些论文 [24、28、75] 估计，Musk1 为 82-100%，Musk2 为 23-90%，TEF 为 38-100%。此外，在 Musk 数据集中，没有明确的结构可供利用。在 TEF 数据集中，实例由 230 维特征向量表示，以颜色、纹理和形状描述符为特征。没有给出关于这些特征的更多细节，除了这种表示是次优的，应该进一步研究 [6]。该特征表示可能已经达到理论上的贝叶斯误差，并且由于协议相关的技术性（例如折叠分区）而获得更好的结果。此外，由于实例级别的标记不可用，因此很难评估狐狸分类器是否真正识别出狐狸，或者它是否识别出与狐狸相关的背景元素，例如森林部分。这可以解释 [24、28、75] 中估计的高 WR。由于所有这些原因，在我们看来，虽然 Musk 和 TEF 数据集代表了一些问题，但使用更多样化的基准将提供更有意义的 MIL 算法比较。

由于上述 TEF 的缺点，研究人员应该使用更合适的基准数据进行计算机视觉任务。例如，在 SIVAL 数据集上比较了几种方法。它包含在相同环境中捕获的不同对象，并为实例提供标签。在每个图像中，感兴趣的对象被分割成几个部分。因此可以测量算法利用共现的能力，并且由于对象都是在相同的环境中捕获的，因此背景实例不会干扰分类过程。然而，对于 MIL 社区来说，使用其他现有的强标记计算机视觉数据集（例如 Pascal VOC [173] 或 ImageNet [174]）作为基准会更有益。这些类型的数据集提供边界框甚至像素级标记，可用于在 MIL 问题中创建实例标签。MIL 算法可以与其他类型的技术进行比较，这在 MIL 文献中几乎从未做过。此外，
为这些新的计算机视觉 MIL 基准提供图像中实例的位置将有助于开发和比较利用包中空间结构的方法。

在计算机视觉以外的应用领域，公开可用的真实世界数据集相对较少。从这几个数据集中，据我们所知，只有一个（Birds [12]）提供实例标签并且是非人工的。这是可以理解的，因为 MIL 通常用于避免劳动密集型实例标记过程。然而，需要创建真实世界的 MIL 数据来衡量不同 MIL 方法的实例标记能力，因为这是一项越来越重要的任务。此外，据我们所知，没有公开可用的 MIL 回归基准数据集，这肯定会刺激对该主题的研究。

最后，使用半人工数据集验证了几种方法。这些数据集可用于隔离 MIL 问题的一个参数，但通常不能代表真实世界的数据。在这些数据集中，实例通常是独立同分布的。这在实际问题中几乎从未发生过。作者应该证明使用此类数据的合理性，清楚地说明做出了哪些假设以及数据集与真实数据有何不同。首先，表 3 根据文献中的参数估计和数据描述，汇总了被认为与一些最广泛使用的基准数据集相关的特征。这些被认为是真实的，但将受益于未来的严格调查。

表 3

表 3 根据文献中的陈述编制 MIL 基准数据集特征的表格。

简而言之，只要仅使用 Musk 和 TEF 数据集来验证一种新方法，就很难预测该方法在不同 MIL 问题中的表现如何。此外，由于鼓励研究人员在这些数据集上评估他们的方法，有前途的模型可能会过早地被淘汰，因为它们的表现不如针对这些基准数据集优化的最佳表现方法。我们认为，应该促进更好地理解 MIL 数据集的特征，并且社区应该使用其他数据集来比较 MIL 算法在 MIL 问题的挑战和属性方面。

7.2. 准确性与 AUC

虽然基准数据至关重要，但正确选择性能指标对于避免仓促得出结论同样重要。在所有实验中，一些算法在将 AUC 与准确性和 UAR 进行比较时获得了对比性能。在其他实验中也观察到了这一点 [30]。这是比较 MIL 算法时必须考虑的一个重要因素。

一些算法（例如 mi-SVM、SI-kNN、SI-SVM、miGraph、MILES）获得的高 AUC 并不能转化为高精度。这可能有很多原因。一些算法根据包的准确性优化决策阈值，而其他算法则推断单个实例标签。在第一种情况下，算法更容易出现 FN，而后者更容易出现 FP，因为 6.4 节中讨论的不对称错误分类成本。6.6 节中的 14 和 16 清楚地说明了这一点。随着负分布的变化，许多算法的 AUC 保持稳定，而精度下降（例如 miGraph、MILES、BoW-SVM）。这意味着评分函数仍然适用于分类，但决策阈值不再是最优的。考虑到图 14 中 AUC 曲线的右端，负实例完全从新分布中采样，可以得出结论，miGraph 的性能优于 RSIS-EoSVM。然而，当与 UAR 比较时，可以得出相反的结论。有人可能会争辩说，假设决策阈值在验证集上进行了优化，AUC 是一个足够的性能指标，但是，在许多问题中，可用数据量太有限，无法满足这一假设。此外，在实例分类的情况下，实例标签是未知的，因此无法执行此类优化。

在我们看来，算法准确设置这个阈值的能力是一个应该衡量的重要特征，以及学习合适的评分函数的能力。因此，准确度测量（例如准确度、F1 分数等）应始终与 AUC 一起报告。

7.3. 开源工具箱

我们认为报告原始论文的结果是一种很好的做法，因为每种方法都由其作者进行了优化以实现最佳性能。如果这些结果不可用，一些作者已经发布了他们的代码，以允许其他研究人员对其他数据集进行更广泛的实验。作者网站 [20、30、58、75、109、149] 已经提供了几种方法。LAMDA4 实验室的网站值得一提，因为它包含用于 Matlab 的 MIL 方法的几种实现。参考 MIL 方法的其他 Matlab 实现可以在 MIL 工具箱 [164] 中找到。还有机器学习和数据挖掘软件包，例如 Weka [176]、KEEL [177] 和 JCLEC [178]，其中存在 MIL 模块。最后，[16] 中使用的基于 SVM 的 MIL 算法的 Python 实现也可以在线获得。各种各样的 MIL 问题需要更多的比较研究，这些研究将因易于使用的代码的可用性而得到促进。本着这种精神，我们在实验中使用的代码已在线提供。

7.4. 计算复杂度

几位作者已经注意到，许多 MIL 算法的计算成本太高，无法用于大型数据集 [15、179]。这是一个严重的问题，因为 MIL 的优势之一是通过利用弱标记数据来增加可用于训练的数据量。

文献中的许多算法不能很好地扩展到大数据集。例如，当使用传统的 QP 和 LP 求解器时，SVM 的计算复杂度介于 $\mathcal{O}\left(n^2\right) 和 \mathcal{O}\left(n^3\right)$ 之间 [180]，其中 $n$ 是实例数。因此，随着实例数量的增加，许多使用 SVM 和类似 SVM 的算法 [4、6、27、179、181、182] 的方法迅速变得不切实际 [46]。为了解决这个问题，在 [46] 中，使用捆绑算法 [183] 来解决线性时间（ $\mathcal{O}\left(n\right)$ ）中的 SVM 优化问题。或者，有人提议在类似 MILES 的算法中使用梯度下降和逻辑回归 [184]。梯度下降算法比 QP 更适合大数据集。

随着数据集大小的增加，计算包之间距离的方法也变得不切实际 [15]。获得两个包之间的距离通常意味着计算每对实例之间的距离，这意味着分类成本为 $\mathcal{O}\left(b^2m^3d\right)$ ，其中 $b$ 是包的数量， $m$ 是每个包的平均实例数， $d$ 是数据。

当使用推土机的距离（EMD）比较两个包中的分布时，这变为 $\mathcal{O}\left(b^2m^3d\right)$ 。此外，这些方法必须将整个数据集存储在内存中，这也可能存在问题。为了在比较包时避免这些成本，最好使用包嵌入技术 [72]。与基于实例的方法相比，将包表示为单个特征向量大大减少了提供给分类器的训练示例的数量。然而，并非所有嵌入方法都具有相同的可扩展性。例如，将包表示为到实例原型（例如 MILES [4]）或其他包 [93] 的距离的方法可以使用大数据集 [118] 产生非常高的维度表示。这可以通过使用 [70、72] 中提出的类似词汇表的编码来表示包来完全避免。在 [95、185] 中，哈希函数被用来加速包的编码过程。或者，包可以用统计内核（STK）[73] 中所做的实例统计来表示。

虽然嵌入方法降低了计算成本，但它们通常不允许实例分类。在这种情况下，已经提出了一些方法来使用实例选择来减少数据集的大小。例如，[186] 在使用 MIL 算法之前使用受免疫系统启发的实例选择算法来减少数据集的大小。MILIS [118] 已被提议通过每个包只选择一个实例而不是使用 1-范数 SVM 来执行原型选择来降低 MILES 的复杂性。

最后，可以采用并行化来减少计算时间，例如 [187]，其中提出了 G3P-MI [83] 算法的并行版本来利用 GPU 的能力，从而处理大量数据。

7.5. 未来方向

基于对本次调查的文献回顾，我们确定了几个 MIL 主题，这些主题是未来研究的有趣途径。

首先，与分类相比，回归和聚类等任务没有得到广泛研究。这可能是因为这些任务的应用程序较少，并且因为没有公开可用的数据集。开始探索 MIL 回归的一个好地方可能是情感计算应用程序，其目标是量化抽象概念，例如情绪和人格特质。在这些应用中，实值标签表达了人类评委对语音或视频序列（包）的评价。这些序列由一组观察结果（实例）表示，目前尚不清楚哪些观察结果有助于欣赏水平。从这个角度来看，这些问题完全符合 MIL 框架。更好的回归算法也可用于 CAD 评估病理的进展阶段，而不是仅将受试者分类为患病或健康。

此外，最近才彻底研究了实例分类和包分类之间的差异。在 [16、20] 的第 4.1 节和我们的实验中证明了这些任务是不同的。本文和 [34] 表明，为包分类提出的许多实例空间方法对于实例分类来说都是次优的。需要 MIL 算法主要解决实例分类问题，而不是将其作为附带功能来执行。根据第 6.4 节的结果，丢弃或仅最低限度地使用包安排信息的方法似乎更适合此任务。我们相信，这种包的安排可以比现有方法更好地利用它，现有方法通常寻求最大限度地提高包级别的准确性。为了进一步促进对该主题的研究，需要更多实例标记的 MIL 数据集。

在某些应用程序中，训练数据仅包含正数据和未标记数据。例如，在推荐系统中，用户的历史记录包含可以建模为包的咨询产品列表。如果用户购买了产品，则认为是正包。客户可能对其他咨询的产品感兴趣，也可能不感兴趣，因此未贴上标签。此类问题在单实例学习 [188] 中得到了很好的研究，但需要在 MIL 上下文中进行更多探索。如前所述，并在实验中观察到，许多 MIL 方法依赖于负分布的特征和包标签的正确性来识别正概念。在这种情况下，从正面和未标记的包中学习成为 MIL 的难题。到目前为止，只有少数论文专门讨论这个主题 [189-191]。

虽然包分类之外的任务会受益于更多的探索，但也有一些问题特征需要 MIL 社区的关注。例如，包内相似性从未被确定为挑战，因此直接解决。一种可能的方法是在每个包中执行某种归一化或校准，以删除每个实例共有的和特定于包的内容。在计算机视觉中，这通常是在初步规范化步骤中完成的。然而，在分子分类等其他任务中，这种类型的程序可能会有所帮助。例如，在 Musk 数据中，包中的实例是同一分子的构象。丢弃与分子 “基本” 形状相关的信息可能有助于推断与其他分子相比，构型的更微妙的特殊性导致了这种效果。

只有几种方法可以利用包中的结构。这是一个重要的主题，已经在一些 BoW 方法中得到解决，但除了一些使用图的方法 [10、26、77、78、99] 之外，其他类型的 MIL 方法从未深入研究过。其中一些方法表示实例之间的相似性或将整个包表示为图形。创建一个中间图表示的方法，其中一些实例被分组在子图中，这可能是一种利用包内部结构的有趣方式。在那种情况下，证人将符合事例的有序安排。使用这种类型的表示，可以在复杂环境中更可靠地识别复杂对象。

在许多问题中，负实例和正实例的数量严重不平衡，然而，现有的不平衡数据集学习方法在 MIL 中没有得到广泛研究。存在许多处理不平衡数据的方法 [192]。有一些外部方法，如 SMOTE [193] 和 RUSBoost [194]，需要准确的标签来执行过采样或欠采样。为了适应 MIL，这些方法可以使用某种概率标签函数。内部方法 [195、196] 独立调整每个类别的错误分类成本。这些方案可用于 mi-SVM 等算法，这些算法需要在 WR 较低时训练具有高类别不平衡的 SVM。[50] 中也将类别不平衡确定为未来研究的重要课题。

使用 MIL 时，必须应对不确定性。在许多应用程序中，通过向人类询问特征空间中最不确定的部分，使用主动学习来训练更好的分类器将是有益的。例如，在 CAD 中，经过初步图像分类后，算法将确定哪些是最关键的实例，并提示临床医生提供标签。这些关键实例将是最模糊的或最有助于分类器的实例。这将需要研究来断言特征空间区域的置信度。关于这个主题的现有文献相当有限 [149、197–199]。或者，该算法应该能够评估每个实例标签将提供的信息增益。作为一个相关主题，应该提出新的方法来整合来自外部和可靠来源的知识。直觉上，在 MIL 算法的学习和决策过程中，使用强标签获得的信息应该比使用弱标签的实例更重要。

除少数论文外，MIL 方法始终关注分类 / 回归阶段，特征被视为问题的不可变参数。最近，表示学习方法 [200] 越来越受欢迎，因为它们通常会产生很高的准确性。其中一些方法以监督方式学习特征以获得更具辨别力的表示 [201]，或者在深度学习中，监督训练阶段通常用于微调以无监督方式学习的特征 [202]。由于标签上的不确定性，这不能直接在 MIL 中完成。判别特征学习方法的适应将有利于 MIL。此外，已经表明，中层表示有助于弥合低层特征和概念之间的语义鸿沟 [203-205]。这些方法通过对带有边界框标记的图像或视频进行监督学习来获得中级表示。还应该为 MIL 提出这些中级表示的学习技术。这是多实例集群有用的领域。关于这个有前途的主题已经有几篇论文 [129、140]。然而，仍有许多悬而未决的问题和限制需要克服，例如处理单个图像中的多个对象或对显着性检测器的依赖性。

在某些应用程序中，例如视频中的情感或复杂事件识别，对象使用不同的模态表示。例如，对象的声音和面部表情可用于分析其行为或情绪状态 [206]。或者，视频中的事件可以通过帧、纹理和运动描述符等来表示 [207、208]。在这两种情况下，视频序列都由与包对应的特征向量集合表示。与现有 MIL 问题的区别在于这些实例属于不同的特征空间。这类似于在几篇论文 [209-212] 中研究过的多视图 MIL。这个有趣的问题需要 MIL 社区进行更多研究，并将在许多领域找到应用，例如多媒体分析或与物联网相关的问题，这需要融合不同的信息源。就其本质而言，这些应用程序意味着大量数据，因此 MIL 将允许利用所有这些信息并减少标记的负担。应该探索几种融合策略。实例可以映射到相同的语义空间以直接进行比较，图模型可以用于聚合多个异构描述符，或者实例可以成对组合以创建新的空间进行比较，类似于 [213]。

8. 结论

在本文中，结合应用对 MIL 问题的特征和挑战进行了调查。我们确定了四种类型的特征，它们定义了 MIL 问题并规定了 MIL 算法在数据集上的行为。这是 MIL 中的一个重要主题，因为更好地了解这些 MIL 特征有助于解释实验结果，并可能在未来提出改进方法。

我们使用代表广泛方法的 16 种方法进行了实验。实验表明，这些特性对性能有重要影响。还表明，每种方法在给定问题特征的情况下表现不同。因此，在试验和提出新方法时，不应忽视对问题的仔细描述。通过实验也得出了更具体的结论：

比如分类任务，当WR比较高的时候，就不需要MIL算法了。该问题可以视为具有单侧噪声的常规监督问题。
例如分类任务，最好的方法不使用包信息（或仅非常轻微）。此外，使用包分类准确度作为目标优化的方法具有更高的假阴性率（随着 WR 的增加），这限制了它们在此任务中的性能。
包空间方法和假设实例继承其包标签的方法会产生更好的分类性能，尤其是当 WR 较高时。
在训练数据不能完全表示负分布的问题中，包空间方法比实例空间方法更稳健。使用最小 Hausdorff 距离时尤其如此。
嵌入空间方法通常对标签噪声具有鲁棒性，而实例空间方法则不然。
仅根据 AUC 衡量性能具有误导性。一些算法学习了准确的评分函数，但未能优化用于获得硬标签的决策阈值，因此准确率较低。

在观察问题特征如何影响 MIL 算法之后，我们讨论了使用比 Musks 和 Tiger、Elephant 和 Fox 数据集更多的基准数据集来比较所提出的 MIL 算法的必要性。很明显，应该根据要解决的问题的特点选择合适的基准数据集。然后，我们确定了在 MIL 中探索的有前途的研究途径。例如，我们发现只有少数论文涉及 MIL 回归和聚类，这在情感计算等新兴应用中很有用。此外，应该提出更多利用实例之间结构的方法。在产生大量时间序列数据的物联网时代，这些方法的需求量很大。最后，有效处理大量数据、多种模式和类别不平衡的方法需要进一步研究。

参考文献

[1] J. Hoffman, D. Pathak, T. Darrell, K. Saenko, Detector discovery in the wild: joint multiple instance and representation learning, in: Proceedings of Conference on Computer Vision and Pattern Recognition, CVPR, 2015.
[2] J. Wu, Y. Yu, C. Huang, K. Yu, Deep multiple instance learning for image classification and auto-annotation, in: Proceedings of Conference on Computer Vision and Pattern Recognition, CVPR, 2015.
[3] T.G. Dietterich, R.H. Lathrop, T. Lozano-Pérez, Solving the multiple instance problem with axis-parallel rectangles, Artif. Intell. 89 (1–2) (1997) 31–71.
[4] Y. Chen, J. Bi, J.Z. Wang, MILES: multiple-instance learning via embedded instance selection, IEEE Trans. Pattern Anal. Mach. Intell. 28 (12) (2006) 1931–1947.
[5] R. Rahmani, S.A. Goldman, MISSL: multiple-instance semi-supervised learning, in: Proceedings of International Conference on Machine Learning, ICML, 2006.
[6] S. Andrews, I. Tsochantaridis, T. Hofmann, Support vector machines for multiple-instance learning, in: Proceedings of Conference on Neural Information Processing Systems, NIPS, 2002.
[7] Q. Zhang, S.A. Goldman, W. Yu, J. Fritts, Content-based image retrieval using multiple-instance learning, in: Proceedings of International Conference on Machine Learning, ICML, 2002.
[8] S. Phan, D.-D. Le, S. Satoh, Multimedia event detection using event-driven multiple instance learning, in: Proceedings of ACM International Conference on Multimedia, ACMMM, 2015.
[9] R.G. Cinbis, J. Verbeek, C. Schmid, Weakly supervised object localization with multi-fold multiple instance learning, IEEE Trans. Pattern Anal. Mach. Intell. 39 (1) (2017) 189–203, doi:10.1109/TPAMI.2016.2535231.
[10] Z.-H. Zhou, Y.-Y. Sun, Y.-F. Li, Multi-instance learning by treating instances as non-I.I.D. samples, in: Proceedings of International Conference on Machine Learning, ICML, 2009.
[11] R. Bunescu, R. Mooney, Learning to extract relations from the web using minimal supervision, in: Proceedings of Association for Computational Linguistics, ACL, 2007.
[12] F. Briggs, X.Z. Fern, R. Raich, Rank-loss support instance machines for MIML instance annotation, in: Proceedings of Conference on Knowledge Discovery and Data Mining, KDD, 2012.
[13] Z.-h. Zhou, Multi-Instance Learning: A Survey, Technical Report, 2004.
[14] B. Babenko, Multiple Instance Learning: Algorithms and Applications, Technical Report, San Diego, USA, 2008.
[15] J. Amores, Multiple instance classification: review, taxonomy and comparative study, Artif. Intell. 201 (2013) 81–105.
[16] G. Doran, S. Ray, A theoretical and empirical analysis of support vector machine methods for multiple-Instance classification, Mach. Learn. 97 (1–2) (2014) 79–102.
[17] J. Foulds, E. Frank, A review of multi-instance learning assumptions, Knowl. Eng. Rev. 25 (1) (2010) 1–25.
[18] S. Ray, M. Craven, Supervised versus multiple instance learning: an empirical comparison, in: Proceedings of International Conference on Machine Learning, ICML, 2005.
[19] V. Cheplygina, D.M. Tax, M. Loog, On classification with bags, groups and sets, Pattern Recognit. Lett. 59 (2015) 11–17.
[20] G. Vanwinckelen, V. Tragante do O, D. Fierens, et al, Instance-level accuracy versus bag-level accuracy in multi-instance learning, Data Min. Knowl. Discov. 30 (2) (2016) 313–341.
[21] E. Alpaydin, V. Cheplygina, M. Loog, D.M. Tax, Single- vs. multiple-instance classification, Pattern Recognit. 48 (9) (2015) 2831–2838.
[22] V. Cheplygina, L. Sørensen, D.M.J. Tax, M. Bruijne, M. Loog, Label stability in multiple instance learning, in: Proceedings of International Conference on Medical Image Computing and Computer-Assisted Intervention, MICCAI, 2015.
[23] V. Cheplygina, D.M.J. Tax, Characterizing multiple instance datasets, in: Proceedings of International Workshop on Similarity-Based Pattern Recognition, SIMBAD, 2015.
[24] F. Li, C. Sminchisescu, Convex multiple-instance learning by estimating likelihood ratio, in: Proceedings of Conference on Neural Information Processing Systems, NIPS, 2010.
[25] Y. Han, Q. Tao, J. Wang, Avoiding false positive in multi-instance learning, in: Proceedings of Conference on Neural Information Processing Systems, NIPS, 2010.
[26] S. Yan, X. Zhu, G. Liu, et al, Sparse multiple instance learning as document classification, Multimed. Tools Appl. 76 (3) (2017) 4553–4570.
[27] R.C. Bunescu, R.J. Mooney, Multiple instance learning for sparse positive bags, in: International Conference on Machine Learning, ICML, 2007.
[28] Y. Li, D.M. Tax, R.P. Duin, M. Loog, Multiple-instance learning as a classifier combining problem, Pattern Recognit. 46 (3) (2013) 865–874.
[29] O. Maron, T. Lozano-Pérez, A framework for multiple-instance learning, in: Proceedings of Conference on Neural Information Processing Systems, NIPS, 1998.
[30] M.-A. Carbonneau, E. Granger, A.J. Raymond, G. Gagnon, Robust multipleinstance learning ensembles using random subspace instance selection, Pattern Recognit. 58 (2016) 83–99.
[31] Y. Xiao, B. Liu, Z. Hao, A sphere-description-based approach for multipleinstance learning, IEEE Trans. Pattern Anal. Mach. Intell. 39 (2) (2017) 242– 257, doi:10.1109/TPAMI.2016.2539952.
[32] N. Weidmann, E. Frank, B. Pfahringer, A two-level learning method for generalized multi-instance problems, in: Proceedings of European Conference on Machine Learning, ECML, 2003.
[33] G. Doran, Multiple Instance Learning from Distributions, Case Western Reserve University, 2015 Ph.D. thesis.
[34] M.-A. Carbonneau, E. Granger, G. Gagnon, Decision threshold adjustment strategies for increased accuracy in multiple instance learning, in: Proceedings of International Conference on Image Processing Theory, Tools and Applications, IPTA, 2016.
[35] Q. Zhang, S.A. Goldman, EM-DD: an improved multiple-instance learning technique, in: Proceedings of Conference on Neural Information Processing Systems, NIPS, 2001.
[36] Z.-H. Zhou, M.-L. Zhang, Solving multi-instance problems with classifier ensemble based on constructive clustering, Knowl. Inf. Syst. 11 (2) (2007) 155–170.
[37] Z.-J. Zha, X.-S. Hua, T. Mei, J. Wang, G.-J. Qi, Z. Wang, Joint multi-label multi-instance learning for image classification, in: Proceedings of Conference on Computer Vision and Pattern Recognition, CVPR, 2008.
[38] Z.-H. Zhou, M.-L. Zhang, S.-J. Huang, Y.-F. Li, Multi-instance multi-label learning, Artif. Intell. 176 (1) (2012) 2291–2320.
[39] F. Herrera, S. Ventura, R. Bello, C. Cornelis, A. Zafra, D. Sánchez-Tarragó, S. Vluymans, Multiple Instance Multiple Label Learning, Springer, pp. 209– 230.
[40] D.R. Dooly, Q. Zhang, S.A. Goldman, R.A. Amar, Multiple instance learning of real valued data, J. Mach. Learn. Res. 3 (2003) 651–678.
[41] S. Ray, D. Page, Multiple instance regression, in: Proceedings of International Conference on Machine Learning, ICML, 2001.
[42] Z. Wang, V. Radosavljevic, B. Han, Z. Obradovic, S. Vucetic, Aerosol optical depth prediction from satellite observations by multiple instance regression, in: Proceedings of SIAM International Conference on Data Mining, SDM, 2008.
[43] K.L. Wagstaff, T. Lane, Salience assignment for multiple-instance regression, in: Proceedings of International Conference on Machine Learning, ICML, 2007.
[44] N. Pappas, A. Popescu-Belis, Explaining the stars: weighted multiple-instance learning for aspect-based sentiment analysis, in: Proceedings of Conference on Empirical Methods in Natural Language Processing, EMNLP, 2014.
[45] Y. EL-Manzalawy, D. Dobbs, V. Honavar, Predicting MHC-II binding affinity using multiple instance regression, IEEE/ACM Trans. Comput. Biol. Bioinform. 8 (4) (2011) 1067–1079.
[46] C. Bergeron, G. Moore, J. Zaretzki, C.M. Breneman, K.P. Bennett, Fast bundle algorithm for multiple-instance learning, IEEE Trans. Pattern Anal. Mach. Intell. 34 (6) (2012) 1068–1079.
[47] Y. Hu, M. Li, N. Yu, Multiple-instance ranking: learning to rank images for image retrieval, in: Proceedings of Conference on Computer Vision and Pattern Recognition, CVPR, 2008.
[48] M.-L. Zhang, Z.-H. Zhou, Multi-instance clustering with applications to multiinstance prediction, Appl. Intell. 31 (1) (2009) 47–68.
[49] D. Zhang, F. Wang, L. Si, T. Li, Maximum margin multiple instance clustering with applications to image and text clustering, IEEE Trans. Neural Netw. 22 (5) (2011) 739–751.
[50] F. Herrera, S. Ventura, R. Bello, C. Cornelis, A. Zafra, D. Sánchez-Tarragó, S. Vluymans, Multiple Instance Learning: Foundation and Algorithms, Springer, 2016.
[51] G. Quellec, G. Cazuguel, B. Cochener, M. Lamard, Multiple-instance learning for medical image and video analysis, IEEE Rev. Biomed. Eng. PP (99) (2017) 1–1, doi:10.1109/RBME.2017.2651164.
[52] S. Sabato, N. Tishby, Multi-instance learning with any hypothesis class, J. Mach. Learn. Res. 13 (1) (2012) 2999–3039.
[53] M.-A. Carbonneau, E. Granger, G. Gagnon, Witness identification in multiple instance learning using random subspaces, in: Proceedings of International Conference on Pattern Recognition, ICPR, 2016.
[54] X.S. Wei, Z.H. Zhou, An empirical study on image bag generators for multi-instance learning, Mach. Learn. 105 (2) (2016) 155–198, doi:10.1007/ s10994-016-5560-1.
[55] E. Nowak, F. Jurie, B. Triggs, Sampling strategies for bag-of-features image classification, in: Proceedings of European Conference on Computer Vision, Proceedings of European Conference on Computer Vision, ECCV, 2006.
[56] H. Wang, M.M. Ullah, A. Klaser, I. Laptev, C. Schmid, Evaluation of local spatio-temporal features for action recognition, in: Proceedings of British Machine Vision Conference, BMVC, 2009.
[57] R. Venkatesan, P. Chandakkar, B. Li, Simpler non-parametric methods provide as good or better results to multiple-instance learning, in: Proceedings of International Conference on Computer Vision, ICCV, 2015.
[58] M. Kandemir, F.A. Hamprecht, Computer-aided diagnosis from weak supervision: a benchmarking study., Comput. Med. Imaging Graph. 42 (2015) 44–50.
[59] B. Babenko, P. Dollár, Z. Tu, S. Belongie, Simultaneous learning and alignment: multi-instance and multi-pose learning, in: Proceedings of European Conference on Computer Vision, ECCV, 2008.
[60] W.J. Li, D.Y. Yeung, MILD: multiple-instance learning via disambiguation, IEEE Trans. Knowl. Data Eng. 22 (1) (2010) 76–89.
[61] B. Babenko, M.-H. Yang, S. Belongie, Robust object tracking with online multiple instance learning, IEEE Trans. Pattern Anal. Mach. Intell. 33 (8) (2011) 1619–1632.
[62] P. Viola, J.C. Platt, C. Zhang, Multiple instance boosting for object detection, in: Proceedings of Conference on Neural Information Processing Systems, Proceedings of Conference on Neural Information Processing Systems, NIPS, 2006.
[63] P. Auer, R. Ortner, A Boosting Approach to Multiple Instance Learning.
[64] Y. Jia, C. Zhang, Instance-level semisupervised multiple instance learning, in: Proceedings of Conference on Artificial Intelligence, AAAI, 2008.
[65] C. Yang, M. Dong, J. Hua, Region-based image annotation using asymmetrical support vector machine-based multiple-instance learning, in: Proceedings of Conference on Computer Vision and Pattern Recognition, CVPR, 2006.
[66] Z.-H. Zhou, X.-B. Xue, Y. Jiang, Locating regions of interest in CBIR with multiinstance learning techniques, in: Proceedings of Australian Joint Conference on Artificial Intelligence, AUS-AI, 2005.
[67] Z.-H. Zhou, J.-M. Xu, On the relation between multi-instance learning and semi-supervised learning, in: Proceedings of International Conference on Machine Learning, ICML, 2007.
[68] Y.-F. Li, J.T. Kwok, I.W. Tsang, Z.-H. Zhou, A convex method for locating regions of interest with multi-instance learning, in: Proceedings of European Conference on Machine Learning and Principles and Practice of Knowledge Discovery in Databases, ECML PKDD, Berlin, Heidelberg, 2009.
[69] A. Blum, A. Kalai, A note on learning from multiple-instance examples, Mach. Learn. 30 (1) (1998) 23–29.
[70] J. Amores, Vocabulary-based approaches for multiple-instance data: a comparative study, in: Proceedings of International Conference on Pattern Recognition, ICPR, 2010.
[71] G. Doran, S. Ray, Learning instance concepts from multiple-instance data with bags as distributions, in: Proceedings of Conference on Artificial Intelligence, AAAI, 2014.
[72] X.S. Wei, J. Wu, Z.H. Zhou, Scalable multi-instance learning, in: Proceedings of International Conference on Data Mining, ICD, 2014.
[73] T. Gärtner, P.A. Flach, A. Kowalczyk, A.J. Smola, Multi-instance kernels, in: Proceedings of International Conference on Machine Learning, ICML, 2002.
[74] X. Xu, E. Frank, Logistic regression and boosting for labeled bags of instances, in: Proceedings of Conference on Pacific Asia Knowledge Discovery and Data Mining, PAKDD, 2004.
[75] P. Gehler, O. Chapelle, Deterministic annealing for multiple-instance learning, in: Proceedings of International Conference on Artificial Intelligence and Statistics, AISTATS, 2007.
[76] K. Ali, K. Saenko, Confidence-rated multiple instance boosting for object detection, in: Proceedings of Conference on Computer Vision and Pattern Recognition, CVPR, 2014.
[77] D. Zhang, Y. Liu, L. Si, J. Zhang, R.D. Lawrence, Multiple instance learning on structured data, in: Proceedings of Conference on Neural Information Processing Systems, NIPS, 2011.
[78] J. Wu, X. Zhu, C. Zhang, P.S. Yu, Bag constrained structure pattern mining for multi-graph classification, IEEE Trans. Knowl. Data Eng. 26 (10) (2014) 2382–2396.
[79] J. Chai, H. Chen, L. Huang, F. Shang, Maximum margin multiple-instance feature weighting, Pattern Recognit. 47 (6) (2014) 2091–2103.
[80] I. Laptev, M. Marszalek, C. Schmid, B. Rozenfeld, Learning realistic human actions from movies, in: Proceedings of Conference on Computer Vision and Pattern Recognition, CVPR, 2008.
[81] A. Zafra, M. Pechenizkiy, S. Ventura, ReliefF-MI: an extension of relieff to multiple instance learning, Neurocomputing 75 (1) (2012) 210–218.
[82] I. Kononenko, Estimating Attributes: Analysis and Extensions of RELIEF, pp. 171–182.
[83] A. Zafra, S. Ventura, G3P-MI: a genetic programming algorithm for multiple instance learning, Inf. Sci. 180 (23) (2010) 4496–4513.
[84] A. Zafra, M. Pechenizkiy, S. Ventura, HyDR-MI: a hybrid algorithm to reduce dimensionality in multiple instance learning, Inf. Sci. 222 (2013) 282– 301.
[85] V.C. Raykar, B. Krishnapuram, J. Bi, M. Dundar, R.B. Rao, Bayesian multiple instance learning: automatic feature selection and inductive transfer, in: Proceedings of International Conference on Machine Learning, ICML, 2008.
[86] M.-L. Zhang, Z.-H. Zhou, Improve multi-instance neural networks through feature selection, Neural Process. Lett. 19 (1) (2004) 1–10.
[87] Z.-H. Zhou, M.-L. Zhang, Neural networks for multi-instance learning, in: Proceedings of International Conference on Intelligent Information Technologies, ICIIT, 2002.
[88] W. Ping, Y. Xu, K. Ren, C.-H. Chi, F. Shen, Non-I.I.D. multi-instance dimensionality reduction by learning a maximum bag margin subspace, in: Proceedings of Conference on Artificial Intelligence, AAAI, 2010.
[89] S. Kim, S. Choi, Local dimensionality reduction for multiple instance learning, in: Proceedings of Conference on Machine Learning for Signal Processing, MLSP, 2010.
[90] J. Chai, X. Ding, H. Chen, T. Li, Multiple-instance discriminant analysis, Pattern Recognit. 47 (7) (2014) 2517–2531.
[91] Y.-Y. Sun, M.K. Ng, Z.-H. Zhou, Multi-instance dimensionality reduction, in: Proceedings of Conference on Artificial Intelligence, AAAI, 2010, pp. 587–592.
[92] F. Kang, R. Jin, R. Sukthankar, Correlated label propagation with application to multi-label learning, in: Proceedings of Conference on Computer Vision and Pattern Recognition, CVPR, 2006.
[93] V. Cheplygina, D.M. Tax, M. Loog, Multiple instance learning with bag dissimilarities, Pattern Recognit. 48 (1) (2015) 264–275.
[94] G. Csurka, C.R. Dance, L. Fan, J. Willamowski, C. Bray, Visual categorization with bags of keypoints, in: Proceedings of European Conference on Computer Vision, ECCV, 2004.
[95] W. Ping, Y. Xu, J. Wang, X.-S. Hua, FAMER: making multi-instance learning better and faster, in: Proceedings of SIAM International Conference on Data Mining, SDM, 2011.
[96] H.-Y. Wang, Q. Yang, H. Zha, Adaptive P-posterior mixture-model kernels for multiple instance learning, in: Proceedings of International Conference on Machine Learning, ICML, 2008.
[97] G.J. Qi, X.S. Hua, Y. Rui, T. Mei, J. Tang, H.J. Zhang, Concurrent multiple instance learning for image categorization, in: Proceedings of Conference on Computer Vision and Pattern Recognition, CVPR, 2007.
[98] M.S. Ryoo, J.K. Aggarwal, Spatio-temporal relationship match: video structure comparison for recognition of complex human activities, in: Proceedings of International Conference on Computer Vision, ICCV, 2009.
[99] A. Mcgovern, D. Jensen, Identifying predictive structures in relational data using multiple instance learning, in: Proceedings of International Conference on Machine Learning, ICML, 2003.
[100] J. Wu, S. Pan, X. Zhu, Z. Cai, Boosting for multi-graph classification, IEEE Trans. Cybern. 45 (3) (2015) 416–429.
[101] J. Bi, J. Liang, Multiple instance learning of pulmonary embolism detection with geodesic distance along vascular structure, in: Proceedings of Conference on Computer Vision and Pattern Recognition, CVPR, 2007, pp. 1–8.
[102] K. Grauman, T. Darrell, The pyramid match kernel: discriminative classification with sets of image features, in: Proceedings of International Conference on Computer Vision, ICCV, 2005.
[103] S. Lazebnik, C. Schmid, J. Ponce, Beyond bags of features: spatial pyramid matching for recognizing natural scene categories, in: Proceedings of Conference on Computer Vision and Pattern Recognition, CVPR, 2006.
[104] D.M.J. Tax, E. Hendriks, M.F. Valstar, M. Pantic, The detection of concept frames using clustering multi-instance learning, in: Proceedings of International Conference on Pattern Recognition, ICPR, 2010.
[105] X. Guan, R. Raich, W.-K. Wong, Efficient multi-instance learning for activity recognition from time series data using an auto-regressive hidden markov model, in: Proceedings of International Conference on Machine Learning, ICML, 2016.
[106] J. Warrell, P.H.S. Torr, Multiple-instance learning with structured bag models, in: Proceedings of International Conference on Energy Minimization Methods in Computer Vision and Pattern Recognition, EMMCVPR, 2011.
[107] Z. Li, G.-H. Geng, J. Feng, J.-y. Peng, C. Wen, J.-l. Liang, Multiple instance learning based on positive instance selection and bag structure construction, Pattern Recognit. Lett. 40 (2014) 19–26.
[108] J. Wang, J.-D. Zucker, Solving the multiple-instance problem: a lazy learning approach, in: Proceedings of International Conference on Machine Learning, ICML, 2000.
[109] Y. Chen, J.Z. Wang, Image categorization by learning and reasoning with regions, J. Mach. Learn. Res. 5 (2004) 913–939.
[110] Q. Wang, L. Si, D. Zhang, A discriminative data-dependent mixture-model approach for multiple instance learning in image classification, in: Proceedings of European Conference on Computer Vision, ECCV, 2012.
[111] D.M. Tax, R.P. Duin, Learning curves for the analysis of multiple instance classifiers, in: Proceedings of International Association for Pattern Recognition, IAPR, 2008.
[112] C. Zhang, X. Chen, M. Chen, S.-C. Chen, M.-L. Shyu, A multiple instance learning approach for content based image retrieval using one-class support vector machine, in: Proceedings of International Congress on Mathematical Education, ICME, 2005.
[113] R.-S. Wu, W.-H. Chung, Ensemble one-class support vector machines for content-based image retrieval, Expert Syst. Appl. 36 (3) (2009) 4451– 4459.
[114] Z. Wang, Z. Zhao, C. Zhang, Learning with only multiple instance positive bags, in: Proceedings of International Joint Conference on Neural Networks, IJCNN, 2016.
[115] W. Li, N. Vasconcelos, Multiple instance learning for soft bags via top instances, in: Proceedings of Conference on Computer Vision and Pattern Recognition, CVPR, 2015.
[116] Y. Rubner, C. Tomasi, L.J. Guibas, The Earth nover’s distance as a metric for image retrieval, Int. J. Comput. Vis. 40 (2) (2000) 99–121.
[117] A. Erdem, E. Erdem, Multiple-instance learning with instance selection via dominant sets, in: Proceedings of International Workshop on Similarity-Based Pattern Recognition, SIMBAD, 2011.
[118] Z. Fu, A. Robles-Kelly, J. Zhou, MILIS: multiple instance learning with instance selection, IEEE Trans. Pattern Anal. Mach. Intell. 33 (5) (2011) 958–977.
[119] S. Bandyopadhyay, D. Ghosh, R. Mitra, Z. Zhao, MBSTAR: multiple instance learning for predicting specific functional binding sites in microrna targets, Sci. Rep. 5 (2015) 8004.
[120] D. Palachanis, Using the Multiple Instance Learning Framework to Address Differential Regulation, Delft University of Technology, 2014 Master.
[121] R. Eksi, H.-D. Li, R. Menon, Y. Wen, G.S. Omenn, M. Kretzler, Y. Guan, Systematically differentiating functions for alternatively spliced isoforms through integrating RNA-seq data., PLoS Comput. Biol. 9 (11) (2013) 1–16.
[122] S. Vijayanarasimhan, K. Grauman, Keywords to visual categories: multiple-instance learning for weakly supervised object categorization, in: Proceedings of Conference on Computer Vision and Pattern Recognition, CVPR, 2008.
[123] O. Maron, A.L. Ratan, Multiple-instance learning for natural scene classification, in: Proceedings of International Conference on Machine Learning, ICML, 1998.
[124] C. Leistner, A. Saffari, H. Bischof, MIForests: multiple-instance learning with randomized trees, in: Proceedings of European Conference on Computer Vision, ECCV, 2010.
[125] X. Song, L. Jiao, S. Yang, X. Zhang, F. Shang, Sparse coding and classifier ensemble based multi-Instance learning for image categorization, Signal Process. 93 (1) (2013) 1–11.
[126] H. Xu, S. Venugopalan, V. Ramanishka, M. Rohrbach, K. Saenko, A multi-scale multiple instance video description network, CoRR abs/1505.0 (2016) 1–14.
[127] A. Karpathy, L. Fei-Fei, Deep visual-semantic alignments for generating image descriptions, in: Proceedings of Conference on Computer Vision and Pattern Recognition, CVPR, 2015.
[128] H. Fang, S. Gupta, F. Iandola, R.K. Srivastava, L. Deng, P. Dollar, J. Gao, X. He, M. Mitchell, J.C. Platt, C. Lawrence Zitnick, G. Zweig, From captions to visual concepts and back, in: Proceedings of Conference on Computer Vision and Pattern Recognition, CVPR, 2015.
[129] J.Y. Zhu, J. Wu, Y. Xu, E. Chang, Z. Tu, Unsupervised object class discovery via saliency-Guided multiple class learning, IEEE Trans. Pattern Anal. Mach. Intell. 37 (4) (2015) 862–875.
[130] H.O. Song, R. Girshick, S. Jegelka, J. Mairal, Z. Harchaoui, T. Darrell, On learning to localize objects with minimal supervision, in: Proceedings of International Conference on Machine Learning, ICML, 2014.
[131] B. Babenko, M.-H. Yang, S. Belongie, Robust object tracking with online multiple instance learning, IEEE Trans. Pattern Anal. Mach. Intell. 33 (8) (2011) 1619–1632.
[132] M. Sapienza, F. Cuzzolin, P.H.S. Torr, Learning discriminative space–time action parts from weakly labelled videos, Int. J. Comput. Vis. 110 (1) (2014) 30–47.
[133] A. Müller, S. Behnke, Multi-instance methods for partially supervised image segmentation, in: Proceedings of International Association for Pattern Recognition, IAPR, 2012, pp. 110–119.
[134] B. Hariharan, P. Arbeláez, R. Girshick, J. Malik, Simultaneous detection and segmentation, in: Proceedings of European Conference on Computer Vision, ECCV, 2014.
[135] A. Vezhnevets, J.M. Buhmann, Towards weakly supervised semantic segmentation by means of multiple instance and multitask learning, in: Proceedings of Conference on Computer Vision and Pattern Recognition, CVPR, 2010.
[136] K.T. Lai, F.X. Yu, M.S. Chen, S.F. Chang, Video event detection by inferring temporal instance labels, in: Proceedings of Conference on Computer Vision and Pattern Recognition, CVPR, 2014.
[137] J. Wang, B. Li, W. Hu, O. Wu, Horror video scene recognition via multiple-instance learning, in: Proceedings of International Conference on Acoustics, Speech and Signal Processing, ICASSP, 2011.
[138] K. Zhang, H. Song, Real-time visual tracking via online weighted multiple instance learning, Pattern Recognit. 46 (1) (2013) 397–411.
[139] H. Lu, Q. Zhou, D. Wang, R. Xiang, A co-training framework for visual tracking with multiple instance learning, in: Proceedings of International Conference on Automatic Face & Gesture Recognition and Workshops, FG’11, 2011.
[140] J. Zhu, B. Wang, X. Yang, W. Zhang, Z. Tu, Action recognition with actons, in: Proceedings of International Conference on Computer Vision, ICCV, 2013.
[141] Y. Xu, et al, Weakly supervised histopathology cancer image segmentation and classification, MedIA 18 (3) (2014) 591–604.
[142] G. Quellec, et al, A multiple-instance learning framework for diabetic retinopathy screening, MedIA 16 (6) (2012) 1228–1240.
[143] T. Tong, R. Wolz, Q. Gao, R. Guerrero, J.V. Hajnal, D. Rueckert, A.D.N. Initiative, et al, Multiple instance learning for classification of dementia in brain mri, Med. Image Anal. 18 (5) (2014) 808–818.
[144] J. Melendez, et al, A novel multiple-instance learning-based approach to computer-aided detection of tuberculosis on chest x-rays, Trans. Med. Imaging 31 (1) (2014) 179–192.
[145] V. Cheplygina, L. Sørensen, D.M.J. Tax, J.H. Pedersen, M. Loog, M. de Bruijne, Classification of COPD with multiple instance learning, in: Proceedings of International Conference on Pattern Recognition, ICPR, 2014.
[146] Z.S. Harris, Distributional structure., Word 10 (1954) 146–162.
[147] Y. Zhang, A.C. Surendran, J.C. Platt, M. Narasimhan, Learning from multi-topic web documents for contextual advertisement, in: Proceedings of Conference on Knowledge Discovery and Data Mining, KDD, 2008.
[148] D. Zhang, J. He, R. Lawrence, Mi2ls: multi-instance learning from multiple informationsources, in: Proceedings of Conference on Knowledge Discovery and Data Mining, KDD, 2013.
[149] B. Settles, M. Craven, S. Ray, Multiple-instance active learning, in: Proceedings of Conference on Neural Information Processing Systems, NIPS, 2008.
[150] Z. Jorgensen, Y. Zhou, M. Inge, A multiple instance learning strategy for combating good word attacks on spam filters, J. Mach. Learn. Res. 9 (2008) 1115–1146.
[151] D. Kotzias, M. Denil, P. Blunsom, N. de Freitas, Deep multi-instance transfer learning, CoRR abs/1411.3 (2014) 1–9.
[152] D. Kotzias, M. Denil, N. de Freitas, P. Smyth, From group to individual labels using deep features, in: Proceedings of Conference on Knowledge Discovery and Data Mining, KDD, 2015.
[153] Z.-H. Zhou, K. Jiang, M. Li, Multi-instance learning based web mining, Appl. Intell. 22 (2) (2005) 135–147.
[154] A. Zafra, S. Ventura, E. Herrera-Viedma, C. Romero, Multiple instance learning with genetic programming for web mining, Comput. Ambient Intell. 4507 (2007) 919–927.
[155] M.I. Mandel, D.P.W. Ellis, Multiple-Instance Learning for Music information Retrieval, 2008.
[156] R.F. Lyon, Machine hearing: an emerging field [exploratory DSP], Signal Process. Mag. IEEE 27 (5) (2010) 131–139.
[157] J.F. Ruiz-Muñoz, M. Orozco-Alzate, G. Castellanos-Dominguez, Multiple instance learning-based birdsong classification using unsupervised recording segmentation, in: Proceedings of International Joint Conference on Artificial Intelligence, IJCAI, 2015.
[158] M.-A. Carbonneau, E. Granger, Y. Attabi, G. Gagnon, Feature learning from spectrograms for assessment of personality traits, IEEE Trans. Affective Comput. PP (99) (2017) 1−10, doi:10.1109/TAFFC.2017.2763132.
[159] A. Kumar, B. Raj, Weakly supervised scalable audio content analysis, 2016 IEEE International Conference on Multimedia and Expo (ICME), Seattle, WA, 2016, pp. 1–6, doi:10.1109/ICME.2016.7552989.
[160] M. Stikic, D. Larlus, S. Ebert, B. Schiele, Weakly supervised recognition of daily life activities with wearable sensors, IEEE Trans. Pattern Anal. Mach. Intell. 33 (12) (2011) 2521–2537.
[161] J.F. Murray, G.F. Hughes, K. Kreutz-Delgado, Machine learning methods for predicting failures in hard drives: A Multiple-Instance application, J. Mach. Learn. Res. 6 (2005) 783–816.
[162] A. Manandhar, K.D. Morton, L.M. Collins, P.A. Torrione, Multiple instance learning for landmine detection using ground penetrating radar, in: Proceedings of SPIE, 2012.
[163] A. Karem, H. Frigui, A multiple instance learning approach for landmine detection using ground penetrating radar, in: Proceedings of International Geoscience and Remote Sensing Symposium, IGARSS, 2011.
[164] D. Tax, V. Cheplygina, MIL, A Matlab Toolbox for Multiple Instance Learning, 2015, Version 1.1.0. https://prlab.tudelft.nl/david-tax/mil.html.
[165] J.H. Friedman, Greedy function approximation: a gradient boosting machine, Ann. Stat. 29 (5) (2001) 1189–1232.
[166] R. Rahmani, S.A. Goldman, H. Zhang, J. Krettek, J.E. Fritts, Localized content based image retrieval, in: Proceedings of Conference of the Special Interest Group on Multimedia, SIGMM, 2005.
[167] K. Lang, Newsweeder: learning to filter netnews, in: Proceedings of International Conference on Machine Learning, ICML, 1995.
[168] P. Baldi, K. Cranmer, T. Faucett, P. Sadowski, D. Whiteson, Parameterized machine learning for high-energy physics, (2016) 1−6, doi:10.1140/epjc/ s10052-016-4099-4.
[169] P.W. Frey, D.J. Slate, Letter recognition using holland-style adaptive classifiers, Mach. Learn. 6 (2) (1991) 161–182.
[170] M. Stone, Cross-validatory choice and assessment of statistical predictions, J. R. Stat. Soc. Ser. B (Methodol.) 36 (2) (1974) 111–147.
[171] J. Demsar, Statistical comparisons of classifiers over multiple data sets, J. Mach. Learn. Res. 7 (2006) 1–30.
[172] B. Frenay, M. Verleysen, Classification in the presence of label noise: a survey, IEEE Trans. Neural Networks Learn. Syst. 25 (5) (2014) 845–869.
[173] M. Everingham, L. Van Gool, C.K. Williams, J. Winn, A. Zisserman, The PASCAL visual object classes (VOC) challenge, Int. J. Comput. Vis. 88 (2) (2010) 303–338.
[174] O. Russakovsky, J. Deng, H. Su, J. Krause, S. Satheesh, S. Ma, Z. Huang, A. Karpathy, A. Khosla, M. Bernstein, A.C. Berg, L. Fei-Fei, Imagenet large scale visual recognition challenge, Int. J. Comput. Vis. 115 (3) (2015) 211–252.
[175] M. Kandemir, C. Zhang, F.A. Hamprecht, Empowering multiple instance histopathology cancer diagnosis by cell graphs, Proceedings of International Conference on Medical Image Computing and Computer-Assisted Intervention, MICCAI (2014).
[176] M. Hall, E. Frank, G. Holmes, B. Pfahringer, P. Reutemann, I.H. Witten, The WEKA Data Mining Software: An Update, SIGKDD Explor. Newsl. 11 (1) (2009) 10–18.
[177] J. Alcala-Fdez, A. Fernandez, J. Luengo, J. Derrac, S. Garcia, L. Sanchez, F. Herrera, KEEL Data-mining software tool: data set repository, integration of algorithms and experimental analysis framework, J. Mult. Log. Soft Comput. 17 (2–3) (2011) 255–287.
[178] S. Ventura, C. Romero, A. Zafra, J.A. Delgado, C. Hervas, Jclec: a java framework for evolutionary computation, Soft Comput. 12 (4) (2008) 381–392.
[179] G.M. Fung, M. Dundar, B. Krishnapuram, R.B. Rao, Multiple instance learning for computer aided diagnosis, in: Proceedings of Conference on Neural Information Processing Systems, NIPS, 2007.
[180] L. Bottou, O. Chapelle, D. DeCoste, J. Weston, Support Vector Machine Solvers, MIT Press, pp. 1–27.
[181] C. Bergeron, J. Zaretzki, C. Breneman, K.P. Bennett, Multiple instance ranking, in: Proceedings of International Conference on Machine Learning, ICML, 2008.
[182] O.L. Mangasarian, E.W. Wild, Multiple instance classification via successive linear programming, J. Optim. Theory Appl. 137 (3) (2008) 555–568.
[183] A. Fuduli, M. Gaudioso, G. Giallombardo, Minimizing nonconvex nonsmooth functions via cutting planes and proximity control, SIAM J. Optim. 14 (3) (2003) 743–756.
[184] Z. Fu, A. Robles-Kelly, Fast multiple instance learning via L1,2 logistic regression, in: Proceedings of International Conference on Pattern Recognition, ICPR, 2008, pp. 1–4.
[185] D. Xu, J. Wu, D. Li, Y. Tian, X. Zhu, X. Wu, SALE: self-adaptive LSH encoding for multi-instance learning, Pattern Recognit. 71 (2017) 460–482, doi:10.1016/ j.patcog.2017.04.029.
[186] L. Yuan, J. Liu, X. Tang, Combining example selection with instance selection to speed up multiple-instance learning, Neurocomputing 129 (2014) 504–515.
[187] A. Cano, A. Zafra, S. Ventura, Speeding up multiple instance learning classification rules on GPUs, Knowl. Inf. Syst. 44 (1) (2015) 127–145.
[188] B. Zhang, W. Zuo, Learning from positive and unlabeled examples: a survey, in: Proceedings of International Symposiums on Information Processing, ISIP, 2008.
[189] J. Wu, X. Zhu, C. Zhang, Z. Cai, Multi-instance learning from positive and unlabeled bags, in: Proceedings of Pacific-Asia Conference on Advances in knowledge Discovery and Data Mining, PAKDD, 2014.
[190] H. Bao, T. Sakai, I. Sato, M. Sugiyama, Risk minimization framework for multiple instance learning from positive and unlabeled bags, CoRR abs/1704.06767 (2017). arXiv preprint arxiv.org/abs/1704.06767.
[191] J. Wu, S. Pan, X. Zhu, C. Zhang, X. Wu, Positive and unlabeled multi-graph learning, IEEE Trans. Cybern. 47 (4) (2017) 818–829.
[192] P. Branco, L. Torgo, R.P. Ribeiro, A survey of predictive modeling on imbalanced domains, ACM Comput. Surv. 49 (2) (2016) 31:1–31:50.
[193] N.V. Chawla, K.W. Bowyer, L.O. Hall, W.P. Kegelmeyer, SMOTE: synthetic minority over-sampling technique, J. Artif. Int. Res. 16 (1) (2002) 321–357.
[194] C. Seiffert, T.M. Khoshgoftaar, J. Van Hulse, A. Napolitano, RUSBoost: a hybrid approach to alleviating class imbalance, IEEE Trans. Syst. Man Cybern. Part A Syst. Humans 40 (1) (2010) 185–197.
[195] T. Imam, K.M. Ting, J. Kamruzzaman, z-SVM: an SVM for improved classification of imbalanced data, in: Proceedings of Australasian Joint Conference on Artificial Intelligence, AJCAI, 2006.
[196] K. Veropoulos, C. Campbell, N. Cristianini, Controlling the sensitivity of support vector machines, in: Proceedings of International Joint Conference on Artificial Intelligence, IJCAI, 1999.
[197] J. Meessen, X. Desurmont, J.F. Delaigle, C.D. Vleeschouwer, B. Macq, Progressive learning for interactive surveillance scenes retrieval, in: Proceedings of Conference on Computer Vision and Pattern Recognition, CVPR, 2007.
[198] J. Melendez, B. van Ginneken, P. Maduskar, R.H.H.M. Philipsen, H. Ayles, C.I. Sánchez, On combining multiple-instance learning and active learning for computer-aided detection of tuberculosis, IEEE Trans. Med. Imaging 35 (4) (2016) 1013–1024.
[199] D. Zhang, F. Wang, Z. Shi, C. Zhang, Interactive localized content based image retrieval with multiple-instance active learning, Pattern Recognit. 43 (2) (2010) 478–484.
[200] Y. Bengio, A. Courville, P. Vincent, Representation learning: a review and new perspectives, IEEE Trans. Pattern Anal. Mach. Intell. 35 (8) (2013) 1798–1828.
[201] J. Mairal, F. Bach, J. Ponce, G. Sapiro, A. Zisserman, Discriminative learned dictionaries for local image analysis, in: Proceedings of Conference on Computer Vision and Pattern Recognition, CVPR, 2008.
[202] H. Larochelle, Y. Bengio, J. Louradour, P. Lamblin, Exploring strategies for training deep neural networks, J. Mach. Learn. Res. 10 (2009) 1–40.
[203] A. Hauptmann, R. Yan, W.H. Lin, M. Christel, H. Wactlar, Can high-level concepts fill the semantic gap in video retrieval? A case study with broadcast news, IEEE Trans. Multimed. 9 (5) (2007) 958–966.
[204] L.-j. Li, H. Su, L. Fei-fei, E.P. Xing, Object bank: a high-level image representation for scene classification & semantic feature sparsification, in: Proceedings of Conference on Neural Information Processing Systems, NIPS, 2010.
[205] S. Sadanand, J.J. Corso, Action bank: a high-level representation of activity in video, in: Proceedings of Conference on Computer Vision and Pattern Recognition, CVPR, 2012.
[206] F. Ringeval, A. Sonderegger, J. Sauer, D. Lalanne, Introducing the RECOLA multimodal corpus of remote collaborative and affective interactions, in: Proceedings of International Conference on Automatic Face & Gesture Recognition and Workshops, FG’13, 2013.
[207] M. Merler, B. Huang, L. Xie, G. Hua, A. Natsev, Semantic model vectors for complex video event recognition, IEEE Trans. Multimed. 14 (1) (2012) 88–101.
[208] K. Tang, B. Yao, L. Fei-Fei, D. Koller, Combining the right features for complex event recognition, in: Proceedings of International Conference on Computer Vision, ICCV, 2013.
[209] J. Wu, X. Zhu, C. Zhang, Z. Cai, Multi-instance multi-graph dual embedding learning, in: Proceedings of International Conference on Data Mining, ICDM, 2013.
[210] J. Wu, Z. Hong, S. Pan, X. Zhu, Z. Cai, C. Zhang, Exploring features for complicated objects: cross-view feature selection for multi-instance learning, in: Proceedings of International Conference on Information and Knowledge Management, CIKM, 2014.
[211] B. Wu, E. Zhong, A. Horner, Q. Yang, Music emotion recognition by multi-label multi-layer multi-instance multi-view learning, in: Proceedings of International Conference on Mulitmedia, ICMM, 2014.
[212] C.-T. Nguyen, D.-C. Zhan, Z.-H. Zhou, Multi-modal image annotation with multi-instance multi-label LDA, in: Proceedings of International Joint Conference on Artificial Intelligence, IJCAI, 2013.
[213] H. Daumé III, Frustratingly easy domain adaptation, CoRR abs/0907.1815 (2009). arXiv preprint arxiv.org/abs/0907.1815.