弱监督目标检测之二连续优化多实例学习

最新推荐文章于 2024-09-11 15:27:35 发布

gaow14

最新推荐文章于 2024-09-11 15:27:35 发布

阅读量5k

点赞数 4

本文链接：https://blog.csdn.net/gaow14/article/details/88186997

版权

上一次的博客提到了我们实验室发表在CVPR2018以及IEEE TPAMI上的工作MELM[1]，这一次的博客进一步介绍基于MELM的最新的工作C-MIL，也是实验室今年被CVPR2019接收的4篇论文之一，《C-MIL: Continuation Multiple Instance Learning for Weakly Supervised Object Detection》。论文也是今年CVPR oral。C-MIL基于VGG16的骨架网络在PASCAL VOC 2007上取得了state-of-the-art的目标检测结果，mAP为50.5，比我们之前的工作MLEM的性能47.3有一个很大margin的性能提升。代码将会开源。在论文中，我们提到了一种基于连续优化的方法，更好地解决弱监督目标检测问题的非凸性，将图片bag中的实例proposals进行有效地划分，划分的每一个子集subsets里面的每一个实例有类别（有相似的类别得分）和空间之间（实例之间有重叠并超过一定的阈值）的联系，并在相应的子集上定义相应的更加光滑smooth的目标函数，从而不同的subsets的目标函数联合去逼近最终的目标函数，从而更好地优化目标函数，避免模型较早陷入局部极小值，从而获得更好的优化结果。

下面就简要地对本文的工作进行介绍。

1 Introduction

弱监督视觉目标检测在计算机视觉领域获得了越来越高的关注度。相比于全监督设置下的目标检测，由于弱监督目标检测的监督信息只是指示图片中是否包含相应类别物体的image-level的信息，因此就大大的减少了time-consuming的bounding-box级别的标注。在前一篇博客中也介绍了很多相关的工作，都致力于解决弱监督目标检测存在的一些问题，比如定位的随机性，由于问题的非凸性导致的局部极小值以及只检测部分discriminative的parts，而不是整个物体的object extent。比如提出了空间正则化方法WCCN[2]，WSDNN[3]，MLEM[1]，加入语义context信息ContextLocnet[4]，以及渐进的优化WCCN[2]，progressive domain adaptation[5]，OICR[6]等。

在本文中，我们在多实例学习Multiple Instance Learning中引入了continuation方法，提出了C-MIL模型以更好地解决非凸性问题。C-MIL把每一张图片看做一个bag，图片中的每一个proposal看做实例。在训练过程中，不同于传统的MIL方法只学习到了物体最具特征判别力的部分，C-MIL学习到了实例的子集，子集中的每一个实例是空间（实例之间有一定的重叠）和类别（实例得分相似）相关的。

这一些实例的子集是根据continuation参数进行划分的，在本文中我们提到了几种不同的continuation参数设置方法，比如线性、Sigmoid、指数、对数等。当参数为最小值的时候，图片划分为一个子集，其中这一个子集包含了所有的实例proposals，这时候C-MIL的损失函数是凸的分类损失函数。当参数设置为最大时，每一个实例就是一个子集，这时候目标函数就是非凸的MIL的损失函数。在训练过程中，参数就设置为从最初的训练epoch到最后的epoch数值从最小0到最大1。用这样的方式，我们可以用一系列的易于优化的光滑的函数去逼近原来的损失函数。图1是MIL和C-MIL的优化过程的对比。

通过端到端的训练，每一张图片中的最具判别力的子集会被挖掘，而其他的子集内的实例将会被抑制。

图 1

总结一下，我们的贡献主要是下面三个。

提出了一个很novel的C-MIL的框架，通过使用一系列的光滑的易于优化的损失函数对原来的损失函数进行优化，减轻多实例学习过程中的非凸性。
提出了一个实例子集划分的参数策略，并结合深度神经网络去激活full object extent。

3. 在常用的目标检测数据集上获得了state-of-the-art的弱监督目标检测与定位性能。

2. Methodology

下面介绍一些论文的名词定义。

为第个bag(图片)，为所有的bags，是的标签，指示是否包含正的instance，其中，-1代表负例图片，1代表正例图片。和分别代表bag图片中的实例和相应的标签，，N代表中实例的个数，为待学习的网络参数。

2.1 MIL Revisit

有了上面的约定，MIL方法可以分为两个交替优化的步骤：实例选择和检测器估计。在实例选择阶段，一个实例选择器可以计算每一个proposal的类别得分，最后根据计算的得分进行正样本挖掘。

公式 1

其中是得分最高的proposals。

在检测器估计阶段，采用上面选择的实例训练实例分类器，和分别是实例选择器和实例分类器的网络参数。

MIL网络，将上面的两个步骤结合在一起，将两个子网络的参数联合进行优化，损失函数定义如下。

公式 2

其中第一项为标准的hinge loss。

公式 3

第二项为实例分类器的损失函数。

公式 4

其中是的标签，按照下面的方式进行定义。

公式 5

其中如果否则。

2.2 Convexity Analysis

考虑到对一系列凸函数的值取最大值得到的函数还是凸函数。当，公式3是凸的，但是当，就是非凸的。因此MIL网络的损失函数（公式2）是非凸的，因此会存在一些局部极小值。这样一旦检测器采用这些不够准确的instances进行训练，会导致检测器的性能受到很大的影响，特别是在早期的训练阶段就被误导。

因此下面的两个问题是需要解决的，第一是如何优化非凸函数；第二是在实例选择器未被训练好的早期阶段怎么进行实例的选择。

2.3 Continuation MIL

C-MIL方法从模型优化的开始到结束会定义一系列光滑的损失函数并得到相应的解，到，其中是当时的解，是时候的解。在模型训练的过程中，定义了一系列的，，分别对应不同的训练epoch，公式2的损失函数在不同的epoch会以一下相应不同的方式呈现。

公式 6

是实例子集，是的index。这样是实例选择的损失函数，是实例分类器的损失函数。

Continuation Instance Selection

当训练实例选择器的时候，一个bag按照一定方法分为一个个的实例子集，其中每一个实例子集中的实例有前面所说的空间和类别上的联系。实例子集建立方法如下。

选择得分最高但是还未属于任何一个实例子集的实例（proposal）建立一个新的实例子集；
将那些与上述得分最高的实例重叠超过或者等于的实例归入该新的实例子集。迭代重复进行上述两个步骤即可。

这里需要对λ的两个特例进行说明，当的时候，每一个被划分一个单个的包含bag所有实例的子集，而当的时候，每一个实例就是一个子集。该实例选择器的损失函数如下。

公式7

其中f是实例子集的得分，定义如下。

公式 8

|Bi,J(λ)|是子集Bi,J(λ)中的实例个数。Bi,j∈Bi,J(λ)。MIL与C-MIL实例选择的差异如图2所示。

图 2

Continuation Detector Estimation

得分最高的实例子集用于检测器的训练。这里采用一个continuation的方法对子集中的实例进行选择，将其实例分为正类实例和负类实例。定义子集中得分最高的实例为，然后按照以下的方法对实例进行正负分类。

公式 9

检测器的损失函数定义如下。

公式 10

2.4 Implementation

系统整体实现架构图如下所示。

图 3

上面提到的两个模块加在骨架网络倒数第二个全连接层的top。采用Selective Search方法为每一张图片产生大概2000个proposals，然后将图片依次通过骨架网络的全卷积层，最后在全卷积层的top层（CNOV5）的feature map上进行ROI-pooling从而产生对每一个proposal的特征表达，最后再经过两个全连接层进行特征的进一步提取，最后再经过上述的两个模块进行相应的实例选择以及实例分类。

3. Experiments

C-MIL在PASCAL VOC 2007和PASCAL VOC 2012上进行了测试，都取得了state-of-the-art的定位和检测性能。

相关的更加detailed的实验设置见原论文。下面将对相应的实验结果进行展示。

3.1 Continuation Method

这一部分主要是评估参数的设置方式以及连续优化方法对最终性能的影响。

Continuation parameter

主要采用了前面已经提到过的5中参数控制方法（见图4）。

图 4

而相应的参数控制策略对最终性能的影响如图5所示。

图 5

Continuation optimization

Continuation优化方法对最终性能的影响如图6所示。

图 6

可见实例选择和目标检测器都加上连续优化的方法可以显著提高检测的性能。在图7显示了MIL和C-MIL方法的定位和分类的性能比较。在早期训练阶段，MIL的性能优于C-MIL的性能，但是后面C-MIL的性能最终赶上了MIL的性能。但是对于检测来说，由于MIL会定位一些最具discriminative的部分，但是存在忽略full object extent，，但是C-MIL会同时优化分类和检测，因此在后面的训练阶段C-MIL的定位结果优于MIL的结果。