导读
本文针对弱监督目标检测任务中,多实例学习方法容易忽略不那么有判别性物体(图像中同一类物体可能不止一个),以及倾向于检测物体实例一小部分的问题,提出基于空间图和外观图的端到端的物体实例挖掘框架 OIM,并设计了物体实例权重重定义损失 IR 帮助OIM检测物体更大的部分。
论文标题:Object Instance Mining for Weakly Supervised Object Detection(AAAI 2020)
论文地址:https://arxiv.org/abs/2002.01087
关键词
- Weakly supervised object detection (WSOD) 弱监督目标检测
- end-to-end 本文提出的是一个端到端框架
- object instance mining (OIM) 本文提出的方法是目标实例挖掘 OIM
- multiple instance detector (MID) OIM 包括多实例检测器
- spatial and appearance graphs OIM 采用了空间图和外观图
- object instance reweighted loss(IR) 作者设计的损失
难点
OIM 过程的理解
问题/背景/现状
本文研究的内容是弱监督目标检测问题 WSOD。常用的多实例学习 MIL 方法容易陷入局部最优的困境,因为这个机制倾向于学习有区别性的物体,会错过一些不那么有判别性的物体从而减弱了检测性能。
本文要解决两个问题:
- 一幅图中可能有多个同类物体,而 MIL 类方法通常挖掘某类最可靠的对象实例,而不考虑图像中实例的数目。对于具有来自同一个类的多个对象实例的图像,具有较低分数的对象实例可能被视为背景区域。
- 最可靠的 proposal 很容易集中于对象的局部,特别是对于人类和动物等非刚性对象。这可能会导致只检测到物体的一小部分的问题。
针对同一类的多对象实例问题——
本文提出的端到端的 OIM 框架就是是为了解决 WSOD 问题中的多实例问题。
OIM基于两个基本假设:
- 置信度最高的 proposal 及其周围高度重叠的 proposal 可能属于同一类;
- 同一类的对象应具有较高的外观相似度。
这两个假设不太直观,稍后会解释。
因此,作者用空间图(spatial graph)描述空间关系,外观图(appearance graph)描述相似性。
通过将这两个图集成到迭代训练过程中,提出了一种仅在图像级监督下精确挖掘每个图像中所有可能对象实例的 OIM 方法。训练的对象实例越多,CNN分类器的识别能力和泛化能力就越强。
针对 CNN 只能检测到一小部分的问题——
作者提出了一种基于空间图的对象实例重加权损失算法,以帮助网络检测出更精确的边界,关注物体实例的更大的区域。
贡献
- 提出了一种使用空间和外观图的对象实例挖掘方法,仅使用图像级注释挖掘所有可能的对象实例,提高 CNN 的判别力。
- 为了学习更准确的 CNN 分类器,提出了一个 object instance reweighted loss 调整不同实例的损失函数的权重。
方法
1. 框架
图 2 是提出的 OIM 框架。
框架包含两部分:
-multiple instance detector (MID) 类似于 2016 年提出的的 WSSDN,用 MIL pooling 同时完成定位和分类任务。
-object instance mining(OIM)+ object instance reweighted loss
训练流程(我在图中标注了序号):
- 用 MID 给候选区域分类
- 检测结果和 proposal 的特征结合,用空间图和外观图搜索图像中同一类物体的所有可能实例。
2. 多实例挖掘
图 3 是多实例挖掘的过程图。
这个图可以直观解释以前方法的问题,以及作者提出的假设。
- 蓝色框为 core proposal,它的置信分数最高,它是最有可能的,最具判别力的 bounding box,以前的方法倾向于选择它,而忽略那些没这么明显的 proposal。
- 再看文中提到的假设一,和这个蓝色框有高度重叠的一些 proposal 属于同一类。如 图(a)中包含汽车一部分的那些 proposal,这些框和中间那个框高度重叠,很可能就是这个实例的一部分,所以它们应该是一类,图中用蓝色实线表示它们的空间关系。
- 再看假设二,外观和 core proposal 高度相似的 proposal 和它属于一类。例如图(b)中的红色框中的物体都和蓝框的一部分相似,都是轮胎,所以他们很可能是一类物体。其中相似性用区域特征向量的距离表示。
可以看出,中间的框住中间那辆车的 proposal 最具判别力,而只框住物体一部分的 proposal 就不太具有判别力,以前的方法很容易忽视它们,从而降低检测性能。现在有了空间图和外观图的概念,就是为了考虑到这些物体。
以下是基于空间图和外观图的多实例挖掘方法:
3. 实例权重重定义损失
Instance Reweighted Loss 用于解决模型只能检测物体一小部分的问题。直观上理解,输出的框只框住物体的一部分,没有全部包括。
作者提出赋予不同区域不同权重的方法,平衡高分 proposal 和 周围分辨力不强的 proposal 的权重。一般高分 proposal 的权重高。
为了引导网络更多地关注学习每个图中对象实例的不明显的域,我们使用公式 4 和公式 5 平衡了周围不明显区域的权重和中心区域的权重。
这两个公式,重点看(5)。
i
c
i_c
ic 是中心区域的有判别性的 proposal 的序号,这里用变量 j 遍历所有的 proposal。如果是中心那个,就把它的权重 β 减一;如果是周围不明显的那些,权重 β 不变。
这样做的结果就是,周围那些不明显区域的权重,相当于在原来的基础上加一,变为(β+1),这样就能让网络多考虑这种 proposal。
实验结果
这里就贴两张结果图,可以看出本文提出的方法与 SOTA 方法相比,很有竞争力。