目录
论文:Acquisition of Localization Confidence for Accurate Object Detection
年份及出处:ECCV 2018
1. Motivation
1.1 用预测框的分类得分作为NMS的排序依据是有缺点的
- 用NMS移除重复预测框时,是按照预测框的分类得分(classification confidence)进行排序的,为什么类别得分可以作为评判预测框和GT框重合度好坏的依据呢?这样做会出现什么问题呢?
the misalignment between classification confidence and localization accuracy,即,高分类得分低定位精度和低分类得分高定位精度:红色预测框的classification confidence比绿色预测框高,所以绿色预测框会被NMS移除,但是,绿色预测框与黄色GT框的IoU更大,表明定位精度更好。
注:FPN输出结果;Loc Conf指的是IoU-Net的方法。 - 定位精度(用IoU来衡量)与分类得分是弱相关的,线性性不强,方差大。
横轴:预测框和与之匹配的GT框的IoU
纵轴:预测框的类别得分
- 结论:用预测框的分类得分作为NMA的排序依据不好,排序依据应该能反映定位精度,于是IoU-Net引入localization confidence(用网络输出一个与类别相关的IoU,来衡量定位置信度的高低)作为排序依据,这是论文的第1个创新点。
- 定位精度(用IoU来衡量)与localization confidence是强相关性,线性性较强,方差小。
1.2 边界框回归是非单调的
- Cascade R-CNN或者其它有级联结构算法,尝试着在RPN阶段后迭代多个R-CNN的head,希望进一步修正预测框的结果,来提高精度,但是很多算法的级联结构并不能真正提升最终效果,比如下面这张图片的第一行,多次迭代后IoU反而变差。实际上作者做了实验发现,并不是迭代结构越多越好,相反,在最开始1-2个,结果是变好的,但之后反而是下降的,作者称之为Non-monotonic(非单调)bounding box regression。
1.3 总结
localization confidence的缺失将引起2个问题:
- The misalignment between classification confidence and localization accuracy
- Non-monotonic bounding box regression
2. 创新点:
- 提出了IoU-Net,使得CNN能预测出候选框的IoU;
- 将传统的NMS替代成了IoU-guided NMS,使用localization confidence替代了classification confidence ,更可靠;
- 提出了一种optimization-based bounding box refinement方法,替代级联多个R-CNN head来提高回归精准度的方法;
- 提出了一种新的pooling方法:Precise RoI Pooling,这是为解决IoU-Net的可求导问题而提出的。
3. IoU-Net
3.1 Learning to predict IoU
- 由于测试阶段没有GT框,所以IoU只能由网络输出。
3.2 IoU-guided NMS
- in order to resolve the misalignment between classification confidence and localization accuracy.
3.3 optimization-based bounding box refinement
- 不是对网络参数进行更新,而是直接对bounding box进行优化
3.4 Precise RoI Pooling
4. 实验
(1)IoU-guided NMS的有效性
- IoU-guided NMS能大幅提升 A P 90 AP_{90} AP90,表明IoU-guided NMS能得到更高精度的定位,但总体定位精度提升不明显。
- 如果把NMS前的检测结果看成召回率的上界,则 IoU-guided NMS得到的检测结果的召回率最接近上界,表明 IoU-guided NMS对召回率损害不大。
(2)optimization-based bounding box refinement的有效性
(3)最终结果
-
A
P
AP
AP有所提高,但检测时间也增加了