文章目录
论文笔记(八):Object Instance Mining forWeakly Supervised Object Detection
------------------------分割线-------------------------------------
一觉起来又多了一周假,崩溃ing–
------------------------分割线-------------------------------------
回归主题,这是一篇AAAI2020的弱监督目标检测文章,着力点在于挖掘出训练样本中大量被忽视的正样本,显著提高了性能。并改进了OICR损失函数来平衡最高置信度候选框和其他候选框对损失函数的贡献。
Problem Finding
训练集中的样本没有被充分挖掘
作者在实验中发现了一个问题:对于具有来自同一类别的多个目标实例的图像,具有较低类别特定分数的目标实例(在强监督中用边界框注释)可能被视为背景区域。而在voc数据集中,这种没有被挖掘出来的正样本是大量的(差不多一半)。这也是作者认为性能能再度提高的地方。
基于此,作者提出了一个端到端的object instance mining(OIM)框架来解决这个问题,该框架基于两个假设:
- 具有最高置信度的候选框和与其高度重叠的候选框属于同一类别
- 同一类别的物体具有很高的外观相似度
所以在框架形式上,构建了空间图空间图和外观图并用于挖掘图像中所有可能的对象实例。其中,空间图旨在对最高置信度候选框与其周围候选框之间的空间关系建模,而外观图旨在捕获与最高置信度候选框具有高度外观相似的所有可能的对象实例。
陷入局部最优问题
这个问题在前面的博客中都提过了。简单来说,就是对于一些非刚性物体(人、动物等),检测器倾向于检测出该物体最有区别性的部分(人脸),而不是整个物体(人)。
Contribution
为了缓解以上两个问题,作者做出了以下两个贡献:
1.提出了一个基于空间图和外观图模型的网络框架
2.提出了目标实例权重重调损失函数
整体框架
如图即为框架的总体架构,由两部分组成。第一部分是多实例检测器(MID),类似于WSDDN,他主要进行候选区域的选择和分类。
然后第二部分集成候选框的特征和第一部分的检测结果,以使用空间图和外观图从每个图像中的同一类别中搜索所有可能的对象实例。 此外,实例重加权损失旨在学习每个对象的较大部分。
Object Instance Mining(OIM)
定义:输入图像为 I I I拥有标签为 c c c的类别,区域候选框 P = { p 1 , . . . , p n } P=\{p_1,...,p_n\} P={ p1,...,pn}及其置信度 X = { x ! , . . . , x n } X=\{x_!,...,x_n\} X={ x!,...,xn}, P i c P_{ic} Pic 为置信度最高的候选框,其置信度为 X i c X_{ic} Xic,所以空间图可以定义为 G i c s = ( V i c s , E i c s ) G_{i_c}^s=(V_{i_c}^s,E_{i_c}^s) Gics=(Vic