(IoU-Net)Acquisition of Localization Confidence for Accurate Object Detection 论文笔记

IoU-Net论文探讨了目标检测中定位置信度的重要性。传统方法仅依赖分类置信度,可能导致定位不准确的bbox被选中。IoU-Net通过预测IoU来评估定位精度,改进NMS策略并提出优化的bbox调整方法,提升了检测的准确性。PrRoI Pooling层允许对IoU进行梯度计算,以优化bbox的位置。
摘要由CSDN通过智能技术生成

前言

在大部分目标检测方法中,分类和定位的处理方法是不同的。给定一个proposal,预测的每个类标签的概率就作为这个proposal的分类置信度(classification confidence),而bbox回归模块只是预测了针对该proposal的变换系数,使该proposal更接近gt box,以拟合目标的位置。在这个过程中,定位置信度(localization confidence)并没有被考虑进来,这就会带来两个缺点:

  • 在抑制重复检测时忽略了定位精度,而只使用分类置信度对proposal进行排序。在下图中,黄色的bbox是gt,红色和绿色的bbox是检测结果,可以看到一些检测结果虽然分类置信度很高,但它们与相应的gt之间的IoU却很小。而分类置信度与定位精度之间这种不能匹配的问题,可能会导致在NMS过程中选出的是定位不准确的bbox,而过滤掉那些定位更准确的bbox。
    在这里插入图片描述

  • 定位置信度的缺失,可能会使得bbox回归缺少可解释性。之前的一些研究证明了bbox回归在迭代过程中的非单调性,也就是说,如果多次应用bbox回归,可能会损害输入bbox的定位效果。

本文提出了IoU-Net,通过预测检测结果与相应gt box之间的IoU,使得网络能像分类模块那样,也对定位精度有所掌握。通过使用这个预测的IoU也可以解决前面提到的问题:

  • IoU对于定位精度来说是一种天然标准,可以用这个预测的IoU替换分类置信度作为NMS操作中的排序依据,从而消除分类置信度的误导性,得到更准确的检测结果。
  • 提出一种基于优化的bbox调整方法,在inference时,将预测的IoU作为优化目标,也作为定位置信度的可解释性指示量。Precise RoI Pooling层使得研究者可以利用梯度上升来处理IoU优化问题。实验证明,与基于回归的方法相比,基于优化的bbox调整方法能实现定位精度的提升。

IoU-Net的结构

在这里插入图片描述
上图是IoU-Net的整体结构,虚线框内的模块构成了一个单独的IoU-Net,以FPN作为backbone,将RoI Pooling层替换为PrRoI Pooling层。在训练IoU-Net时,使用一组随机参数对gt box进行变换,得到一组候选bbox,也就是图中的Jittered RoIs,然后过滤掉其中与gt box的IoU<0.5的bbox,在剩下的bbox中采样训练数据,作为PrRoI Pooling层的输入。对于每个bbox来说,它的特征来自FPN的输出和PrRoI Pooling层的处理,然后这些bbox被送入IoU predictor中。

由于IoU-Net的训练过程相对于检测器来说是独立的,因此它可以与不同的检测器结合,并且鲁棒性很强。


IoU-guided NMS

本文提出了一种IoU-guided NMS来解决分类置信度与定位精度之间的不匹配问题。具体来说就是,使用预测的IoU替换分类置信度,作为NMS操作时的排序依据。这样在进行NMS时,选出与gt之间的IoU最高的那个bbox b m b_m bm,它的分类置信度为 s s s,将那些与 b m b_m bm的IoU大于阈值的bbox过滤掉,若某个bbox b j b_j bj的分类置信度高于 b m b_m bm,则更新 b m b_m bm的分类置信度为: s = m a x ( s , s j ) s=max(s,s_j) s=max(s,sj

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值