很多基于CNN的目标检测算法都依赖于回归框和非极大抑制来定位物体。虽然对于分类标签的概率自然地影响分类置信度,但是定位的置信度是缺失的。这就会使边界框在迭代回归中退化甚至在非极大值抑制期间被抑制。文章提出了IoU-Net来预测每个检测边界框和ground-truth的IoU。整个网络获得了边界框的置信度,这样可以改善非极大值抑制过程。而且,文章还提出了一种边界框优化方法。这种方法取得了很好的效果。
Delving into object localization
目前,目标定位有两个缺点:(1)分类置信度和定位精度之间不匹配(2)非单调边界框回归。
分类置信度和定位精度之间不匹配
如下图所示,(a)图表示分类置信度和IoU不是很有相关性,(b)图表示用IoU-Net预测的定位置信度和IoU之间很好的匹配关系。
传统的非极大值抑制方法会保留分类置信度很高的边界框。可是由于分类置信度和IoU的不匹配,这就导致了定位精度会变低。下图展示了用NMS方法处理之后的正确边界框的数量。黄色表示的是定位置信度引导的NMS方法,可以看到保留的框大部分都很准确;蓝色表示的传统的分类置信度引导的NMS方法,可以看到定位准确的边界框有很多被舍弃掉了。
非单调的边界框回归
如下图所示,随着迭代次数的增加,基于回归的边界框修正方法得到的框的精度不是单调递增的,而基于优化的方法会使精度一直增加。
IoU-Net
IoU-Net的整体结构如上图所示。IoU预测器从FPN网络获取特征然后对每个边界框估计它的定位置信度。通过增强ground-truth来生成训练用的边界框的标签。对于训练集中所有的ground-truth边界框,用一组随机参数来转化它们,这样就形成了一系列的互选边界框。然后移除掉IoU比0.5小的边界框。依据IoU从这些候选的边界框中一致性地挑选出训练数据。这种数据生成的过程会使网络有更好的表现和鲁棒性。对于每个边界框,从FPN网络输出的特征再经过RoIPooling层得到边界框的特征。这些特征输入到全连接层。
经过网络会输出有很多带有定位置信度的边界框,通过用IoU-guided NMS方法来获得最后的边界框。
在处理边界框修正的问题上,作者把它看作了一个优化进程。边界框修正问题可以被描述成一个数学优化问题。
其中boxdet是一个检测出的边界框,boxgt是ground-truth边界框,transform是一个边界框转化函数。Crit是一个测量两个边界框距离的标准。在传统的Faster R-CNN中,crit是一个在log尺度上的smooth-L1距离,在这片文章中,Crit是ln(IoU)。
IoU-Net直接去估计boxdet和boxgt之间的IoU,文章提出了Precise RoI Pooling的方法使得可以用随机梯度下降法来求出上面公式的参数c。
在训练上,文章采用了联合训练的方式。将 IoU 预测器添加到目标检测框架网络中有助于网络学习更具判别性的特征。
Experiments
如上图所示,IoU-NMS和基于优化的边界框修正的方法可以很好地提升边界框的精度。
Conclusion
文章的创新点在于引入了定位精度,使得基于定位精度的NMS方法可以更好的提升边界框的精度,文章在边界框修正问题上进入了基于优化的方法使得精度得到了很大提高。