论文地址:FoveaBox: Beyond Anchor-based Object Detector
一篇anchor-free的检测论文
实现两点:
1、使用category-sensitive semantic map进行物体存在的预测,这点我个人觉得就是语义分割的思想
2、使用category-agnostic bounding box对目标的bounding box进行检测
整体结构如上图所示,使用FPN作为backbone,然后对每层feature map进行预测
Scale Assignment
Object Fovea
进行category-sensitive semantic map的预测的结果为H* W* K,其中H和W为feature map的size,K为预测种类的个数
对于gt的bounding box
(
x
1
,
y
1
,
x
2
,
y
2
)
(x_1,y_1,x_2,y_2)
(x1,y1,x2,y2),先对不同层的feature map进行缩放
随后对feature map上的坐标使用参数
σ
1
\sigma_1
σ1进行转换
positive area
R
p
o
s
=
(
x
1
′
′
,
y
1
′
′
,
x
2
′
′
,
y
2
′
′
)
R^{pos}=(x_1^{''},y_1^{''},x_2^{''},y_2^{''})
Rpos=(x1′′,y1′′,x2′′,y2′′),
R
p
o
s
R^{pos}
Rpos中的每个cell都打上target class label
然后对于negative sample,对公式4使用
σ
2
\sigma_2
σ2进行转换得到
R
n
e
g
R^{neg}
Rneg,整个nagative area是除去
R
n
e
g
R^{neg}
Rneg以外的其他区域
使用focal loss
Box Prediction
使用Smoth L1 loss