Oriented R-CNN 阅读笔记
Oriented R-CNN for Object Detection(ICCV 2021)
摘要
- 传统two-stage检测器通过产生oriented proposals来进行OBB检测,十分耗时
- Oriented R-CNN是一个two-stage检测器:第一个stage使用oriented RPN产生高质量OBB;第二个stage是oriented R-CNN head用来细化oriented RoIs并进行识别
- DOTA上75.87%mAP,HRSC2016 96.50%mAP,1024×1024图片在RTX 2080Ti上有15.1FPS
引言
- 产生oriented proposals的三种方案
Oriented R-CNN
Oriented RPN
- 编码:Oriented RPN 网络输出 offset δ = ( δ x , δ y , δ w , δ h , δ α , δ β ) \delta=(\delta_x,\delta_y,\delta_w,\delta_h,\delta_\alpha,\delta_\beta) δ=(δx,δy,δw,δh,δα,δβ),因此特征图上的每一个点有 6A 个输出(A是每个点上的anchor数目)
- 解码:(所有的参数含义可以从上面那张结构图里面知道)
Midpoint Offset Representation
Loss Function
-
p
∗
∈
{
0
,
1
}
p^*\in \{0,1\}
p∗∈{0,1} 表示每一个anchor属于一个正样本或者负样本,
p
i
∗
p^*_i
pi∗表示该anchor对应的gt的真实label,
δ
i
\delta_i
δi 和
t
i
∗
t^*_i
ti∗分别表示预测的OBB和真实的OBB
- 获得的预测box可能带有仿射变换,如下图
Oriented R-CNN Head
Rotated RoIAlign
- 将上述蓝色框较短的对角线延长至和较长对角线一样的长度,得到一个矩形框
- 将oriented rectangular投影到stride为 s s s 的特征图 F F F 上,然后通过RoI操作进行特征提取得到最右边的规格为 m × m m×m m×m 的特征图 F ′ F' F′ ( m m m 默认为7)
- 特征图
F
′
F'
F′ 的第
c
c
c 通道上的点
(
i
,
j
)
(i, j)
(i,j) 用以下公式计算
其中 F c F_c Fc 是第 c c c 个通道的特征, n n n 是每个网格内定位的样本数, a r e a ( i , j ) area(i,j) area(i,j)是包含在索引 ( i , j ) (i,j) (i,j) 的网格中的坐标集, R ( ⋅ ) R(·) R(⋅) 是一个旋转变换
实验结果
召回率
- 分别在每张图片中选择top-300、top-1000、top-2000个最高得分的proposals用
R
300
、
R
1000
、
R
2000
R_{300}、R_{1000}、R_{2000}
R300、R1000、R2000 表示,结果如下图
DOTA数据集上与SOTA的对比
HRSC2016数据集上与SOTA的对比
DOTA数据集上速度与准确率对比