Object Instance Mining for Weakly Supervised Object Detection 论文笔记

最新推荐文章于 2023-05-23 14:05:05 发布

头柱碳只狼

最新推荐文章于 2023-05-23 14:05:05 发布

阅读量616

点赞数 2

分类专栏：目标检测文章标签：计算机视觉

本文链接：https://blog.csdn.net/qq_30146937/article/details/104836628

版权

本文针对弱监督目标检测中的多目标实例问题，提出目标实例挖掘（OIM）框架，结合空间图和外观图挖掘同一类别的多个目标实例，以增强CNN分类器的区别能力。同时，为解决局部最优问题，引入实例重加权损失，使得网络能关注到更多目标实例。实验表明，这种方法提高了WSOD的性能。

摘要由CSDN通过智能技术生成

前言

大多数弱监督目标检测（WSOD）采用的框架是将多实例学习（MIL）和CNN结合起来，这种框架通常会将特定于某个类别的具有最高置信度的proposal挖掘出来，以训练基于CNN的分类器，但并不会考虑图像中的目标实例的数量。如果图像中有多个目标实例属于同一类别，那么具有较低置信度的目标实例可能会被认为是背景。而被选择的目标实例的尺度和外观变化都是有限的，因此仅用这些目标实例是无法训练出一个具有强大区别能力的分类器的。更糟糕的是，那些被忽略掉的目标实例在训练时可能会被当作负样本，这将进一步降低CNN分类器的区别能力。

为了解决图像中的多目标实例问题，本文提出了一个端到端的目标实例挖掘框架（OIM），它的提出基于两个基础假设：

具有最高置信度的proposal及其周围高度重叠的proposal可能属于同一类；
属于同一类的目标在外观上应该具有很高的相似度。

在OIM中，构建了空间图和外观图，以挖掘图像中所有可能存在的目标实例，并将这些目标实例用于训练，

空间图用于对高置信度的proposal和它周围的proposal的空间关系进行建模；
外观图用于捕获所有可能的目标实例，这些目标实例与高置信度的proposal的外观具有很高的相似度。

通过将这两个图整合到训练中，只需图像级别的监督就能精确挖掘图像中所有可能的目标实例，也就是OIM。而更多的目标实例参与到训练中，也会使CNN分类器的区别能力和泛化能力更强。OIM还可以防止学习过程陷入局部最优，因为每个类有更多的目标参与到训练中，并且它们具有很高的相似度。

下图展示了原始图像和它对应的objectness map，说明了目标实例挖掘的过程（从左到右），第一到第四列分别代表随机初始化，epoch1，epoch3，最后一个epoch，蓝色和红色的bbox分别表示检测分数小于0.5和检测分数大于0.5的被检测到的实例。这个图说明随着迭代次数的增加，属于同一个类的多个目标实例都能被检测到，并用于训练中。
在这里插入图片描述
现有的WSOD方法还存在一个问题，置信度最高的proposal很容易集中在目标的局部区域，尤其是对于一些非刚性物体，例如人和动物。这导致的问题是，只能检测到目标的一小部分。为了解决这个问题，本文还提出了一个object instance reweighted loss，让网络把更少的注意力放在局部位置，而更多的关注每个目标较大的部分。

实现方法

下图为框架的整体结构，由两部分组成：第一部分是多实例检测器（MID），它使用加权MIL池同时进行候选区域的选择和分类操作；第二部分是OIM和instance reweighted loss。使用在ImageNet上预训练过的VGG16作为backbone，候选区域的生成采用的是Selective Search方法。

在这里插入图片描述
训练时的过程大致如下：

首先用MID对候选区域进行分类，分为不同的预测的类别；
然后将检测器的结果和proposal的特征整合起来，送入OIM中，用空间图和外观图搜索图像中属于同一类别的所有可能的目标实例；
除此之外，instance reweighted loss让网络更多的关注每个目标较大的部分。

1. Object instance Mining（OIM）

给定输入图像 $I$ ，类别标签是 $c$ ，候选区域为 $P=\lbrace p_1,...,p_N \rbrace$ ，相对应的置信度为 $X=\lbrace x_1,...x_N \rbrace$ ，能够从中选出具有最高置信度 $x_{i_c}$ 的核心实例（core instance） $p_{i_c}$ ，其中 $i_c$ 表示该核心实例的索引。核心空间图（core spatial graph）可以被定义为： $G^s_{i_c}=(V^s_{i_c},E^s_{i_c})$ ， $V^s_{i_c}$ 中的每个节点表示一个被选择的proposal，该proposal与核心实例的重叠度（空间相似度）大于一个阈值 $T$ ； $E^s_{i_c}$ 中的每条边表示这种空间相似度。 $G^s_{i_c}$