论文笔记（十）：Object-Aware Instance Labeling forWeakly Supervised Object Detection

最新推荐文章于 2023-02-28 20:05:44 发布

lzrrrrr

最新推荐文章于 2023-02-28 20:05:44 发布

阅读量834

点赞数 1

分类专栏：论文笔记系列文章标签：弱监督计算机视觉人工智能深度学习 python

本文链接：https://blog.csdn.net/lzr_ps/article/details/107114893

版权

本文探讨了弱监督对象检测中的实例标记问题，提出了上下文感知正样本（CAP）和空间限制负样本（SRN）标记方法，以改进OICR的局限性。CAP通过损失判断候选框是否完整覆盖对象，SRN则防止同一图像中其他相同对象被错误标记。实验表明这两种方法能有效优化实例标记。

摘要由CSDN通过智能技术生成

文章目录

论文笔记（十）：Object-Aware Instance Labeling for Weakly Supervised Object Detection

论文笔记（十）：Object-Aware Instance Labeling for Weakly Supervised Object Detection

继续阅读论文。。。其实都是疫情期间杂七杂八看的一些论文，来学校了定时整理一下加深印象。
本文来自ICCV2019，顾名思义，关注的是实例标记的问题（实例标记一直是弱监督中亟需解决的问题，由于缺乏标签框对候选框进行正负样本的初步标记，导致了检测器学习不到最好的特征），虽然这篇文章的结果没有去年其他顶会文章要高，但是其思路还是十分不错的。

实例标记问题

在弱监督检测方向，关注于实例标记的文章在早期比较火热，直到OICR的出现大幅度的提高了精度之后，这个问题基本得到了缓解。
作者列举了早期的一些实例标记方法，一般都是对检测器进行简单的初始化（比如假设目标位于图片中心），然后通过训练来跟新标签，这种方法虽然在训练初期的效果很差，但是随着检测器迭代更新，标签也会逐渐优化。
而在OICR中每个实例分类器都已上一个实例分类器的定位结果作为标签，经过多次更新，能取得很好的性能。

本文贡献

作者认为OICR的标记方法较为简单，为了更有效的标记实例，作者提出了两种方法：

上下文感知的正样本（CAP）标记：通过判断候选框是否覆盖整个对象来将覆盖整个物体的区域代替不完整的区域
空间限制的负样本（SRN）标记：通过空间限制来防止同一图像中的其他相同对象被标记为负样本
如图，与OICR的实例标记相比，作者提出的两种方法不仅能将整个实例标记为正样本，而且能防止其他的同一实例被标记为负样本。

相关工作

一般来说相关工作我都不看的（感觉大部分都差不多），但是这篇文章对以前的工作（大部分都是很早的工作）进行了一个简单的分类，我也借这个机会整理一下。
作者将弱监督的方法分成了三类：交替的方法、端到端方法和转换（二阶段）的方法
1.biaojiating approach
Song.等在初始化中假设实例标签位于图像的中心来训练检测器，通过交替的更新检测器和实例标签来逐步完善检测器。
Li.等使用整个图像来训练一个分类器，然后使用遮罩策略来选择特定类别高置信度的候选框。
Cinbis.等提出了一种多重学习的方法来解决交替方法中容易陷入局部最优的问题。
Jie.等提出了一种自学式的学习方法来选择更可靠的候选框。
这些方法非常耗时，且容易陷入局部最优，所以现在基本上都是采用的如下的端到端的方法。
2. end-to-end approach
端到端最经典的莫过于Bilen提出的WSDDN，后面的文章基本上都是在此之上的改进。
Kantorov.等将上下文信息考虑了进来，Diba.等使用基于类激活图的语义分割来发现更好的候选框，Tang.等通过利用CNN中的低层信息来获得高质量的候选框。Tang.等提出了一种在线细分策略来对分类网络进行实例标记。因为OICR在性能上的巨大提升，作者也将其作为了baseline。
3. transferring approach
通过上述网络获得的位置信息来训练一个强分类器不仅能提升精度，也能加快检测速度。
Cheng.等提出了一种生成对抗学习的范式，他们引入了鉴别器并训练了类似于SSD的一阶段检测器来使得SSD的结果接近于OICR的结果。以此来提升检测速度。
Zhang.等提出了伪标记方法，将OICR的结果作为伪标签来训练FasterRCNN。
Zhang.等提出了一种之字形的策略，他们制定了一个标准来自动测量和排序定位的难度。由于WSDDN的结果并不可靠，他们使用先易后难的策略，先训练简单图片并逐步添加困难图片。

本文方法

在这里插入图片描述

CAP Labeling

作者的灵感来源于Tanaka等人的研究，在研究分类问题时，其发现分类器在具有噪声标签的图像上训练时，损失通常比干净图片上的要高。
作者基于此思想来判断候选框是否覆盖了整个对象：
通过对候选框进行遮罩，若该候选框覆盖了整个对象，那么将遮罩图片标记为对象会使得图片变得嘈杂；
若该候选框只覆盖了对象的一部分，那么将遮罩图片标记为对象会使图片相对干净。
将这些数据训练成分类器，则可以根据损失来判断候选框是否覆盖了整个对象。
损失函数为交叉熵损失，这里就不写了。