【论文学习】Dual-Aligned Oriented Detector

【论文学习】Dual-Aligned Oriented Detector

论文链接:https://ieeexplore.ieee.org/document/9706434
代码链接:https://github.com/yanqingyao1994/DODet

一、前言

在过去的几年里,遥感图像中的物体检测已经取得了显著的进展。然而,由于空间和特征的错位,对定向和密集物体的检测仍然不能令人满意。1)大多数两阶段定向检测器只在检测头中引入一个定向回归分支,而仍然利用水平建议进行分类和回归。这不可避免地导致了水平建议和定向物体之间的空间错位问题。2)用于分类的特征实际上是从区域建议中提取的,这些区域建议已经通过回归分支转移到了最终预测中。这导致了分类和定位任务之间的特征错位问题

在这篇文章中,作者提出了一种两阶段的面向对象检测方法,称为双向对齐的检测器(DODet),以规避上述的空间和特征错位问题。在DODet中,第一阶段是一个定向建议网络(OPN),它通过一个新的定向对象表示方案产生高质量的定向建议。第二阶段是定位引导检测头(LDH),目的是缓解分类和定位之间的特征错位。在DIOR-R、DOTA和HRSC2016等三个基准上进行的全面而广泛的评估表明,与基线方法相比,我们的方法可以获得一致而可观的收益。

二、相关工作

三、提出的方法

3.1 网络架构

图3说明了DODet的框架。我们提出的DODet是一个两阶段的面向对象检测器,由一个OPN和一个LDH组成。在第一阶段,我们引入了一种新颖的定向边界盒描述方法,以生成高质量的旋转建议。这种方法可以有效地处理水平建议和定向物体之间的空间错位问题。

在第二阶段,我们利用通过框回归子网预测的边界框来指导分类分支以获得更多的判别性特征图(discriminative feature maps),这些特征图随后被送入旋转判别池池化(RDP)进行特征对齐。我们的特征金字塔网络主干遵循FPN,产生五层特征{P2, P3, P4, P5, P6}。注意我们在图3中为了简化而忽略了OPN和FPN架构的分类分支。接下来,我们将详细介绍OPN和LDH模块。

图3
图3:所提方法的结构。我们的DODet包括两个阶段:第一个阶段是OPN,第二个阶段是LDH。OPN和LDH被应用于特征金字塔的每个尺度。在OPN中,提出了一种新颖的定向边界框的描述方法,以生成高质量的旋转建议。这种方法不仅可以处理水平建议和定向物体之间的空间错位问题,而且更有利于长宽比大的物体的回归。注意,我们只对OPN的回归分支进行了可视化,为了简化,忽略了分类分支。在LDH中,我们首先采用框回归子网,在框回归子网的指导下生成更精确的边界框。然后我们使用RDP为最终的分类分支提取对齐的特征。

3.2 旋转建议网络(OPN)

OPN的目的是学习具有任意方向的建议。具体来说,给定从FPN输出的多级特征图{P2, P3, P4, P5, P6},OPN是由一个共享的3×3卷积层和两个平行的1×1卷积层组成的。同级的1×1卷积层分别应用于分类分支(cls)和回归分支(reg)。这两个分支的输出分别是由cls计算的分数和由reg预测的偏移量。最终,它们的损失被累积起来,形成OPN损失。

与RPN不同,我们的OPN使用(x, y, R, S, θ)来表示一个定向框。给定一个地面真实框 ( x ∗ , y ∗ , R ∗ , S ∗ , θ ∗ ) (x^*,y^*,R^*,S^*,\theta^*) (x,y,R,S,θ)和一个预设的锚 ( x a , y a , R a , S a ) (x_a,y_a,R_a,S_a) (xa,ya,Ra,Sa),边界箱的回归可以用以下公式描述:
在这里插入图片描述
这里,(x,y)表示边界框的几何中心。R表示预测边界框的长宽比,计算公式为R=w/h,旨在确定预测边界框的形状。S表示预测边界框的面积,计算公式为S=h×w,用来控制预测边界框的大小。 θ表示从x轴的位置方向到宽度w的方向的角度,它负责确定预测边界框的方向,范围为 0 到 π/2。
OPN的损失公式定义如下:
在这里插入图片描述
其中,p表示每个预测边界框的前景概率得分,p∗是类别标签的指标( p ∗ = 1 p^*=1 p=1表示物体, p ∗ = 0 p^*=0 p=0表示背景)。v表示预测的偏移矢量, v ∗ v^* v是真实框的目标矢量。在我们的实验中,我们选择交叉熵损失作为分类损失 L c l s L_{cls} Lcls,选择平滑L1损失作为回归损失 L r e g L_{reg} Lreg

我们的OPN优化的是长宽比R和面积S,而不是w和h。w和h的值只在推理阶段计算,在优化过程中不参与偏移计算。因此,我们的OPN可以有效避免边界交换的问题。此外,消融实验的结果表明,采用长宽比和面积而不是物体的宽度和高度可以使OPN更容易学习到稳定和特定类别的特征,从而使网络更容易收敛。

3.3 定位引导探测头

为了有效解决分类和定位之间的特征错位问题,我们提出了一个LDH,它在框回归子网络输出的更精确的定向框的指导下完善分类特征。接下来,我们将描述LDH的两个组成部分:框回归子网络和分类子网络。

1)框回归子网络。参考文献[41],卷积层更有利于位置特征的获取,而全连接(FC)层更适合于分类特征的提取。所以我们使用卷积层而不是FC层进行框的回归。这里,这个子网络的输入是FPN的多级特征图和第一阶段回归的边界盒坐标。我们首先通过旋转的RoI Align提取相应的区域特征。随后,我们使用两个卷积层来获得更准确的回归偏执。在消融实验中,我们比较了不同卷积核大小的实验结果,并选择最优的一对卷积核作为我们的最终结构。

具体来说,给定RoI特征图 X ∈ R H × W × 256 \boldsymbol{X}∈\mathbb{R}^{H\times W\times 256} XRH×W×256作为输入,盒式回归子网推断过程可以用以下公式描述:
在这里插入图片描述
在我们的实验中,c1和c2分别被设定为256和1024。 Φ \Phi Φ 代表旋转的RoI Align操作,Avgpool表示平均池化操作。

2)分类子网络。该子网将给定的金字塔层级的特征图与通过框回归子网络提炼的边界框一起作为输入,并输出具有更高置信度的分类分数。为此,我们将细化的框的特征图送入RDP以提取对齐的特征。RDP的过程如图4所示。
图四
首先,采用两个同级的旋转的RoI Align来获得区域特征。这两层的输出分别是用于轻量级偏置预测的k×k×256子区域和用于原始特征提取的2k×2k×256子区域。接下来,我们在偏置预测后接三个FC层,然后进行插值操作,为2k×2k的特征图预测偏置 O 2 k × 2 k O_{2k\times 2k} O2k×2k。最后,原始子区域特征和额外的特征偏置相加,形成精炼的子区域特征 I \boldsymbol{I} I,具体如下:
在这里插入图片描述
其中 X ∈ R H × W × 256 \boldsymbol{X}∈\mathbb{R}^{H\times W\times 256} XRH×W×256表示用于分类的多级特征图, Φ k × k \Phi_{k\times k} Φk×k表示旋转的RoI Align操作,用于将特征区域统一为k×k(k=7)。 Γ \Gamma Γ表示元素相加操作。G和Interp分别代表三个FC层和插值操作。

在提取修正子区域的特征后,采用自适应加权池化(AWP),通过重新安排不同采样点的权重来获得判别性特征。自适应加权池化的设计是为了给每个有辨别力的像素坐标合理地分配一个较高的权重。在这里,原始像素中经过修正的子区域特征,即 I ∈ R 2 k × 2 k \boldsymbol{I}∈\mathbb{R}^{2k\times 2k} IR2k×2k,被用来估计其相应的权重 W ( I ) ∈ R 2 k × 2 k W(\boldsymbol{I})∈\mathbb{R}^{2k\times 2k} W(I)R2k×2k,它表示所有2k×2k空间子区域中单个像素的判别能力。如图4所示,一些采样像素 S i j S_{ij} Sij和它们相应的自适应权重 w i j w_{ij} wij被用来计算加权的RoI特征图 I ′ ∈ R 2 k × 2 k \boldsymbol{I}'∈\mathbb{R}^{2k\times 2k} IR2k×2k,公式如下:
在这里插入图片描述
其中 ⊙ \odot 是哈达玛积。权重 w i j w_{ij} wij是通过卷积运算从 I I I中得知的。随后,我们对 I ′ I' I采用跨度为2的双线性池化操作,得到大小为k×k的判别性RoI特征。最后,应用三个FC层和softmax分类器来获得最终的分类分数。

关于分类分支,这里推荐两篇文章:D2DetDeformable Convolutional Network论文解读,先读可变形卷积,理解Deformable ROI Pooling,再读D2Det,体会D2Det在可变形卷积上的改进,然后再理解自适应权重池化的思想,就可以理解DODet中的分类分支的设计了。
本文中的分类分支的设计参考了D2Det的分类分支,但又有一定的改动。

四、实验和结果

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

五、结论

在这篇文章中,我们分析了最近任意方向目标检测方法中的两种错位情况,包括空间错位和特征错位。在这些问题的激励下,我们提出了一种用于遥感图像中的定向物体检测的DODet。通过提出的OPN和LDH,我们的DODet方法实现了有效的空间配准,缓解了分类分数和定位精度之间的不一致。重要的是,我们的DODet对大长宽比的物体有更好的适应性。在DIOR-R、DOTA和HRSC2016数据集上进行的大量实验结果表明,我们的方法与目前的先进方法相比具有竞争力的准确性。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值