Sina Weibo:小锋子Shawn
Tencent E-mail:403568338@qq.com
http://blog.csdn.net/dgyuanshaofeng/article/details/81417221
0 摘要
类别标签的概率反应了分类置信度,而定位置信度则无法反应。因此,提出IoU-Net。在MS-COCO上进行了验证。
1 介绍
定位置信度“缺失”的两个缺点。如图1所示,第一,分类分数高的包围盒,与真实包围盒的重叠(overlap)可能会很小,产生“劣币驱逐良币”效应,概括为分类置信度和定位准确度直接的不匹配;第二,包围盒回归可能越来越差,概括为非单调包围盒回归。
文章提出,1、在NMS过程,利用IoU进行ranking,即IoU-guided NMS;2、利用Precise RoI Pooling layer,基于优化包围盒优化取代基于回归包围盒优化。
2 深入目标定位
2.1 分类和定位的不匹配性
2.2 包围盒回归的非单调性
3 交并比网络
3.1 学习预测IoU
如图5所示。IoU预测器(指虚线框中2层FC)拿FPN的输出视觉特征,给每一个检测框估计IoU/定位准确性。
3.2 IoU引导的NMS
利用IoU引导的NMS解决分类置信度和定位准确性的失配(misalignment),其中上述两者将被解混(disentangled)。像传统NMS一样,某个检测框具有最高的交并比,将被选择去消除其它检测框,这些检测框的overlap大于给定的阈值
Ω
n
m
s
\Omega_{nms}
Ωnms。为了决定分类得分/置信度,检测框
i
i
i消除检测框
j
j
j,检测框
i
i
i的置信度
s
i
s_{i}
si将更新为
s
i
=
m
a
x
(
s
i
,
s
j
)
s_{i}=max(s_{i}, s_{j})
si=max(si,sj),即两者之间的较大者。如图6所示,为上述过程的伪代码算法。IoU引导的NMS好于传统NMS和Soft-NMS[2]。
3.3 包围盒优化是一个优化过程
包围盒优化利用数学语言表达为,寻找下式最优值:
c
∗
=
arg
max
c
c
r
i
t
(
t
r
a
n
s
f
o
r
m
(
b
o
x
d
e
t
,
c
)
,
b
o
x
g
t
)
(
1
)
c^{*}=\arg \max_{c} crit(transform(box_{det},c), box_{gt}) \ \ \ \ \ (1)
c∗=argcmaxcrit(transform(boxdet,c),boxgt) (1),其中
b
o
x
d
e
t
box_{det}
boxdet表示检测/预测包围盒,
b
o
x
g
t
box_{gt}
boxgt表示目标/真实包围盒,transform表示接受参数
c
c
c的包围盒变换函数。crit表示测量两包围盒的距离/相似性。在Fast R-CNN中,crit表示在对数尺度下坐标的smooth-L1距离。在Unitbox中,crit表示IoU得分/IoU损失。
IoU-Net直接估计两包围盒的IoU得分。文章[1]提出的Precise RoI Pooling(精确RoI池化)可计算IoU对包围盒坐标的梯度,因此利用梯度下降法寻找上述(1)式的解,过程如图7所示。
3.4 联合训练
[1] Acquisition of Localization Confidence for Accurate Object Detection ECCV 2018 [paper] [PreciseRoIPooling code]
[2]