翻译仅为学习,如有侵权请联系我删除。
翻译如有错误之处请指出。
摘要
现在的基于CNN物体检测器依赖于边界框回归和非极大值抑制来定位物体。虽然类标签的概率自然的反映了分类置信度,但缺乏定位置信度。这使得合适的定位边界框在迭代回归期间退化,甚至在NMS时被抑制。在这篇论文里我们提出了IoU-Net学习预测每个识别框和其匹配真值框之间的IoU。这个网络获得了定位置信度,通过保存准确定位边界框提高了NMS程序性能。此外,基于优化的边界框细化方法建议将预测的IoU作为目标。在MS-COCO数据集上的大量实验证明了IoU-Net的有效性,以及它与几个最先进的物体检测器的兼容性和适应性。
1、简介
目标检测是一组广泛的下游视觉应用的前提,例如实例分割[19,20],人体骨架[27],人脸识别[26]和基于对象的高级推理[30]。目标检测将目标分类和目标定位结合起来。大多数现代目标检测器基于两阶段框架[9,8,22,16,10],其中目标检测被描述为一个多任务学习问题:1)区分前景对象提议和背景,并给它们分配适当的类标签;2)回归一组系数,通过最大化检测结果与地面真相之间的交叉重叠(IOU)或其他度量来定位目标。最后,通过非最大抑制(NMS)过程删除冗余包围盒(同一对象上的重复检测)。
(a)分类置信度与定位精度失调的实证案例。黄色边框表示真值框,而红色和绿色边框都FPN[16]的检测结果。定位置信度由建议的IOU-网络计算.在传统的NMS过程中,使用分类置信度作为排序指标会导致精确的b-box(bounding box)(绿色)被错误地消除。定量分析见2.1节
(b)迭代b-box回归中非单调定位的证明。第2.2节提供了定量分析。
Fig. 1:可视化由于缺乏定位置信度而带来的两个缺点。例子选自MS-Coo Minival[17]。
在这类检测流水线中,分类和定位是不同的。具体来说,当给定一个提案时,虽然每个类标签的概率自然地充当提案的“分类信任”,但b-box回归模块找到了最优的方案转换,以最适合GT(ground-truth)。然而,“定位置信度”在循环中是不存在的。
这带来了两个缺点。(1)首先,对重复检测的抑制忽略了定位的准确性,而分类分数通常被用作对提案进行排序的标准。在图1(A)中,我们展示了一组情况,其中检测到的具有较高分类可信度的边界框与相应的真值框的重叠较小。就像格雷斯汉姆所说的,坏账会把好东西赶走,分类可信度和定位精度之间的不一致可能会导致NMS过程中精确定位的b-box被那些不太准确的b-box所抑制。(2)由于缺乏定位置信度,使得被广泛采用的b-box回归难以解释。作为一个例子,以前的工作[3]报告了迭代b-box回归的非单调性.也就是说,如果多次应用,边框回归可能会退化输入边界框的本地化(如图1(B)所示)。
本文介绍了IOU-Net,它能预测检测到的b-box与它们对应的真值框之间的IOU值,使网络感知定位准则类似于分类模块。这个简单的系数为我们提供了解决上述问题的新方法:
1、IOU是定位精度的自然标准。我们可以用预测的IOU代替分类置信度作为NMS中的排名关键字。这种技术,即IOU-guided NMS,有助于消除由误导性分类信任引起的抑制失败。
2、在传统回归方法的基础上,提出了一种基于优化的b-box细化方法.在推理过程中,以预测的IOU作为优化目标,同时也是定位置信度的一个可解释的指标。所提出的精确ROI池层使我们能够通过梯度上升来解决IOU优化问题。结果表明,与基于回归的方法相比,基于优化的b-box精化方法在定位精度上有了单调的提高。该方法完全兼容各种基于cnn的检测器[16,3,10]。
2、深入研究对象定位
首先,我们探讨了目标定位中的两个缺点:分类置信度与定位精度之间的不一致和非单调的b-box回归。一种在MS-Cocotravoid35k训练的标准的FPN[16]探测器作为基线,并在Minival上进行测试用来学习。
2.1、错误分类与定位精度
自[4]以来,NMS一直是大多数目标探测器中不可缺少的部件,其目的是去除重复的b-box。NMS以迭代的方式工作。在每次迭代时,选择具有最大分类置信度的b-box,并使用预定义的重叠阈值消除其相邻框。在软NMS[2]算法中,盒消除被置信度的降低所取代,从而导致更高的查全率。最近,人们提出了一套基于学习的算法来代替无参数NMS和软NMS.[24]计算所有包围框的重叠矩阵,并执行亲和传播聚类以选择聚类样本作为最终检测结果。[11]提出了GossipNet,这是一个基于b-box和分类置信度的NMS后处理网络。[12]提出了一种端到端网络,学习检测到的b-box之间的关系。然而,这些基于参数的方法需要更多的计算资源,从而限制了它们在实际应用中的应用。
Fig.2:b-box与真值框的IoU与分类/定位置信度的相关性。考虑到探测到的b-box与相应的真值框有一个IOU(>0.5),皮尔逊相关系数为:(A)0.217和(B)0.617。
(a)分类置信度表示b-box的类别,但不能解释为定位精度。
(b)为了解决这一问题,我们提出了IOU-net来预测每个检测到的b-box的定位置信度,即它于相应真值框的IoU。
在广泛采用的NMS方法中,分类置信度被用来对b-box进行排序,这是有问题的。我们可视化NMS之前所有检测到的边界框的分类信任分布,如图2(A)所示。x轴是检测框与其匹配的真值框之间的IOU,y轴表示它的分类可信度。Pearson相关系数表明定位精度与分类置信度之间不存在很好的相关性。
我们把这归因于大多数基于CNN的目标检测器在区分前景(阳性)样本和背景(阴性)样本时所使用的目标。检测到的边界框 boxdet b o x d e t 在训练过程中被认为是阳性的,如果它与真值框之一的IoU大于阈值 Ωtr