【OrientedRepPoints】Oriented RepPoints for Aerial Object Detection的译读笔记

Oriented RepPoints for Aerial Object Detection

摘要

  与通用目标不同,航空目标通常不是正轴对齐而且具有任意的方向,且周围背景较为杂乱。与主流方法使用边界框方向回归,本文针对航空目标检测,提出一种高效的自适应点学习的方法,能够利用自适应点表征来捕获任意朝向实例的几何信息。为此,本文提出了三种方向转换函数,以增强方向准确的分类和定位。此外,本文提出一种高效的质量评估和样本分类方法用于自适应点学习,用于在训练期间选择具有代表性的 oriented reppoints samples ,从而能够从邻近目标或背景噪声中捕获非轴对齐的特征。本文还引入了一种空间约束来惩罚离群点,以实现鲁棒的自适应学习。实验使用了四个具有挑战性的航空数据集,包括DOTA、HRSC、UCAS-AOD和DIOR-R,展现了本文方法的有效性。源代码位于https://github.com/LiWentomng/OrientedRepPoints

1. 引言

  作为一项重要的计算机视觉任务[4_DOTA&ODAI, 34_DOTA, 37_ClusDet],航空目标检测最近引起了越来越多的关注,该任务在遥感图像理解中发挥着重要的作用。不同于通用目标检测,航空目标定位会有其独特的难点,包括具有任意方向的非轴对齐目标[3_RoITransformer, 9_ReDet, 24_DRN]
以及具有复杂上下文的密集紧凑分布[7_CFA, 37_ClusDet], 45_SCRDet]
  主流方法通常将航空目标检测是做旋转目标定位[3_RoITransformer, 8_S2ANet, 9_ReDet, 24_DRN, 42_R3Det, 45_SCRDet]的问题。在这些工作中,基于直接回归角度的方法在该领域中占据了主导,这些方法源自常见的目标检测器[18_FPN, 19_RetinaNet, 28_FasterRCNN, 53_CenterNet],并带有额外的方向参数。尽管取得了较好的性能,直接方向预测仍然存在一些问题,例如损失的不连续性和回归的不一致性[25_RSDet, 40_DCL, 41_CSL, 43_GWD]
。这主要由角度方向的有界周期性质和旋转边界框的方向定义引起的。尽管这些定位结果看起来不错,但基于方向回归的检测器可能会无法准确地预测方向,如图1-(a)所示。
在这里插入图片描述
  为了有效地解决上述问题,本文重新审视了航空目标的表示,来避免较为敏感的方向估计。Point set作为一种细粒度的目标表示,在传统的通用检测器(例如RepPoints[46_RepPoints])中,展示出捕获关键语义特征的巨大潜力。然而,去简单的转换函数金能产生 upright-horizontal 的边界框,而不能精确地估计航空目标的朝向。此外,RepPoints仅通过予以特征回归了关键点而忽视了对学习的关键点质量的有效评估。对于航拍图像中分布密集和背景复杂的非轴对齐的目标,这可能会导致较差的性能。
  本文提出了针对航拍图像提出了一种旋转目标检测模型,称为OrientedRepPoints,此方法引入了对多样的角度、形状和姿态的自适应点表示。与传统的方向回归方法相比,本文的方法不仅是实现了具有准确方向的精确航空检测,而且还捕获了任意方向目标实例的底层几何结构,如图1所示。具体来说,初始的适应点是从中心点产生的,之后在进一步细化来适应航拍目标。为了获得带有方向的边界框,本文根据所学习关键点的布局提出了三种方向转换函数。此外,本文提出一种有效的自适应点分配和评估(adaptive points assessment and assignment, APAA)方法来进行点集学习,该方法可以在训练时从分类定位以及 oriented reppoints 方向和点特征相关性两方面来衡量它们的质量。此方法使检测器能够从相邻目标或背景噪声中捕获轴向无关的特征,以分配代表性的 oriented reppoints 样本。此外,本文还提出一种空间约束,来增强航脆弱点在航空场景中找到其实例归属的能力。与其它基于方向回归的方法相比,本文的框架通过精准预测方向,获得了更加准确的性能。
  综上所述,本文的主要贡献是:(1)提出一种名为OrientedRepPoints有效的航空目标检测模型,其中引入了灵活的自适应点作为实现旋转目标检测的表示方法;(2)提出一种新颖的自适应点学习的质量评估和样本分配方法,该方法在选取点样本综合考虑了分类定位以及方向和点特征的相关性;(3)在四个挑战性数据集上的实验展示出富有成效的定性和定量结果。

2. 相关工作

  不同于通用目标检测器使用水平边界框,航拍图像的目标常常是任意朝向并且密集分布的。本文将在后续章节讨论相关的工作。

2.1 旋转目标检测

  近期的航空目标检测方法主要是源于经典的目标检测器,并引入了方向回归的任务。SCRDet[45_SCRDet]、CADNet[47_CADNet]、DRN[24_DRN]、R3Det[42_R3Det]、ReDet[9_ReDet]和OrientedRCNN[35_OrientedRCNN]这些方法都通过预测边界框的旋转角度来获得显著的性能。GlidingVertex[36_GlidingVertex]和RSDet[25_RSDet]通过回归四边形来提升检测结果。为了解决基于角度的方向估计中边界不连续性的问题,Yang等人[41_CSL]将角度回归转换为角度分类任务[40_DCL]。之后,Yang等人将旋转边界框的参数化转化到2D高斯分布中,从而使得旋转目标检测获得了更加稳健(robust)的结果。这些方法致力于使用旋转角度表示来改进方向估计。本文从另一个视角引入了一种更加高效的基于自适应点的表示方法。

2.2 轴向无关的特征学习

  大多数经典的目标检测方法[26_YOLOv1, 28_FasterRCNN, 30_FCOS, 46_RepPoints, 48_APD, 49_FAN, 53_CenterNet]是面向直立或轴向对齐的目标,于是难以用于复杂背景中密集分布的非轴向对齐的目标。为了解决这个问题,Ding等人[3_RoITransformer]对轴向对齐的RoIs进行空间变换,并在旋转边界框监督下学习轴向无关的表征。SCRDet++[44_SCRDet++]增强了轴向无关的特征并且在训练网络中带来了更高的目标响应。Han等人[8_S2ANet]设计了一种特征对齐模块,以减轻轴向对齐卷积特征和任意方向目标之间的错位。DRN[24_DRN]提出一种特征选择模块,来聚合从不同大小卷积核、形状和方向中获得的轴向对齐信息,并使用动态filter生成器来进一步回归。Guo等人[7_CFA]采用凸包表示来学习不规则的形状和排布,通过可学习的特征自适应来避免特征混叠。本文提出的基于点集的方法是对非轴向对齐的航拍目标来提取关键特征。

2.3 目标检测的样本分配策略

  许多检测方法使用了简单的方式来设置选择正样本的IoU阈值。然而,由于潜在的噪声和困难样例[15_Learning_From_Noisy_Anchors, 22_IQDet],这种方案无法保证训练样本的整体质量。近期,通用目标检测提出了一些样本分配方法,例如:ATSS[50_ATSS]、FreeAnchor[51_FreeAnchor]、PAA[13_PAA]和OTA[6_OTA],使用一种 learning-to-match 的优化策略[52_Learning_To_Match]来选择高质量的样本。在航空场景中,由于方向的多样性和分布的密集性,为旋转检测器学习选择高质量的样本是十分必要的。Ming等人[23_DAL]引入了匹配性度量来评估基于角度锚框的空间对齐程度,它使用了对齐敏感损失来加强分类和方向定位的相关性。本文提出一种有效的质量评估和样本分配方法来选择正样本点。

3. Oriented RepPoints

3.1 概述

  不同于传统方法[3_RoITransformer, 8_S2ANet, 9_ReDet, 45_SCRDet]直接回归方向,本文使用自适应点集[46_RepPoints]来作为细粒度表征,该方法能捕获环境较为嘈杂、方向变化剧烈的航拍目标的几何结构。为此,本文引入了可微分的转换函数,来驱使表征点自适应地向旋转目标周围的合适位置进行移动。为了在不使用 direct pointsto-points supervision 的情况下有效地学习高质量的自适应点,本文提出一种质量度量方法,用来在训练过程中选择高质量的 oriented reppoints。为了促进稳健的自适应表征点学习,本文采用空间约束来乘法脆弱的异常值并从复杂的场景上下文中找到其归属的目标实例。图2展示了本文提出的OrientedRepPoints模型的整体结构。
在这里插入图片描述

3.2 带有角度的自适应表征点学习

  为了使用点集表示来增强旋转检测器,本文引入了转换函数来将自适应表征点转换为角度边界框。设 G \mathcal{G} G为角度转换函数,如下所示:
O B = G ( R ) OB = \mathcal{G}(\mathcal{R}) OB=G(R)
其中, O B OB OB表示从学习表征点集 R \mathcal{R} R转换得到的角度框。本文研究了三个角度转换函数:

  • MinAeraRect 目的是从对于旋转目标的学习表征点集中,找到具有最小面积的旋转矩形。
  • NearestGTCorner 使用真值标注。对于每个角点,会从学习表征点集中选择一个最邻近的点作为预测角点,其中选中角点会被用来构建一个四边形作为旋转边界框。
  • ConvexHull. 基于 Jarvis March 算法[7_CFA, 11_JarvisMarchAlgorithm],一个旋转实例多边形可以由点集的凸包来定义,该算法也被用于许多基于边缘的方法中。

  值得注意的是,NearestGTCorner ConvexHull 是可微函数,而MinAeraRect 则不是。因此,本文在后处理中使用 MinAeraRect 来获得标准的旋转矩形预测,而其它两种可微函数则用于在训练中优化自适应表征点的学习。在角度真值标注的监督下,点会针对每个航拍目标朝着 semantic key 和 geometric features 自适应移动,同时也会受到分类和定位损失的驱动。
  本文提出的框架由两个阶段组成。初始阶段通过由目标中心点(特征图箱,feature map bins)提取生成自适应表征点集。细化阶段进一步通过最小化损失函数来获得更加精细的调整,其中损失函数如下:
在这里插入图片描述
其中, λ 1 \lambda_1 λ1 λ 2 \lambda_2 λ2表示平衡的权重。 L c l s \mathcal{L}_{c l s} Lcls表示目标分类损失:
L c l s = 1 N c l s ∑ i F c l s ( R i c l s ( θ ) , b j c l s ) \mathcal{L}_{c l s}=\frac{1}{N_{c l s}} \sum_i \mathcal{F}_{c l s}\left(\mathcal{R}_i^{c l s}(\theta), b_j^{c l s}\right) Lcls=Ncls1iFcls(Ricls(θ),bjcls)
其中, R i c l s ( θ ) \mathcal{R}_i^{c l s}(\theta) Ricls(θ)表示基于学习点预测类别的置信度, b j c l s b_j^{c l s} bjcls表示分配的正确类别。 F c l s \mathcal{F}_{c l s} Fcls是 Focal Loss[19_RetinaNet]。 N c l s N_{c l s} Ncls表示点集的总数。 L s 1 \mathcal{L}_{s 1} Ls1 L s 2 \mathcal{L}_{s 2} Ls2分别表示初始和细化阶段的空间定位损失。对于每个阶段, L s \mathcal{L}_{s} Ls可以表示如下:
L s = L l o c + L s . c . \mathcal{L}_{s} = \mathcal{L}_{loc} + \mathcal{L}_{s.c.} Ls=Lloc+Ls.c.
其中, L l o c \mathcal{L}_{loc} Lloc是基于转换后旋转框的定位损失, L s . c . \mathcal{L}_{s.c.} Ls.c.是空间约束损失。
  令 N l o c N_{loc} Nloc表示前景点集样本的总数。 b j l o c b_j^{loc} bjloc表示真值框的位置。因此, L l o c \mathcal{L}_{loc} Lloc定义如下:
L l o c = 1 N l o c ∑ i [ b j c l s ≥ 1 ] F l o c ( O B i l o c ( θ ) , b j l o c ) \mathcal{L}_{loc} = \frac{1}{N_{loc}} \sum_{i} \left[ b_j^{cls} \geq 1\right] \mathcal{F}_{loc} \left(OB_i^{loc}(\theta), b_j^{loc} \right) Lloc=Nloc1i[bjcls1]Floc(OBiloc(θ),bjloc)
其中, F l o c \mathcal{F}_{loc} Floc是针对旋转多边形的 GIoU Loss。
  由于航拍图像中不同类别的多样性和背景的杂乱性,部分学习表征点容易收到具有强关键特征的背景或相邻目标的影响,于是这些点可能会移动到真值边界框之外。为了方便这些易受影响的点能够捕获其实例归属者的几何特征,本文引入一种空间约束来惩罚边界框之外的自适应表征点。设 ρ i j \rho_{ij} ρij表示惩罚函数。对于每个旋转目标的空间损失 L s . c . \mathcal{L}_{s.c.} Ls.c.定义如下:
L s . c . = 1 N a 1 N o ∑ i = 1 ∑ j = 1 ρ i j \mathcal{L}_{s.c.} = \frac{1}{N_a} \frac{1}{N_o} \sum_{i=1} \sum_{j=1} \rho_{ij} Ls.c.=Na1No1i=1j=1ρij
其中, N a N_a Na表示对每个目标分配的正点集样本的数量。 N o N_o No表示每个点集中在GT框外的点数。
  令 p c \mathbf{p}_c pc表示真是边界框的几何中心。给定采样点 p 0 \mathbf{p}_0 p0在边界框外,则惩罚项定义如下:
ρ = { ∥ p o − p c ∥ , p o  is outside  G T 0 ,  otherwise.  \rho=\left\{\begin{array}{cl} \left\|\mathbf{p}_{\mathbf{o}}-\mathbf{p}_c\right\|, & \mathbf{p}_o \text { is outside } GT \\ 0, & \text { otherwise. } \end{array}\right. ρ={popc,0,po is outside GT otherwise. 
其中 G T GT GT表示真实框。

3.3 自适应点评估和分配

  对于航拍图像中密集分布和任意朝向的目标,由于缺乏直接监督,学习高质量的点对于自适应地捕获几何特征是十分重要的。为此,本文提出一种评估和分配方法来度量学习点的质量,可以在训练阶段将自适应点的代表性样本分配为正样本。
  自适应点质量度量:首先,本文定义了质量度量 Q Q Q,从四个方面评估学习到的自适应点,包括分类和定位能力 Q c l s Q_{cls} Qcls Q l o c Q_{loc} Qloc,方向对齐 Q o r i Q_{ori} Qori和对每个方向点集的逐点相关性 Q p o c Q_{poc} Qpoc。因此, Q Q Q定义如下:
在这里插入图片描述
点集 R i \mathcal{R}_i Ri的分类能力 Q c l s Q_{cls} Qcls直接反映了其分类置信度 R i c l s ( θ ) \mathcal{R}_i^{cls}(\theta) Ricls(θ),其中相应的分类损失 L c l s \mathcal{L}_{cls} Lcls衡量了点特征与真实类标签 b j c l s b_j^{cls} bjcls之间的适应性。本文定义 Q c l s Q_{cls} Qcls
Q c l s ( R i , b j ) = L c l s ( R i c l s ( θ ) , b j c l s ) Q_{cls}(\mathcal{R}_i, b_j) = \mathcal{L}_{cls}(\mathcal{R}_i^{cls}(\theta), b_j^{cls}) Qcls(Ri,bj)=Lcls(Ricls(θ),bjcls)
  为了评估点位置与真实值 b j l o c b_j^{loc} bjloc之间的适应性,本文使用定位损失作为质量评估度量,该度量是基于IoU变换。当点集的中心接近目标的几何中心时,该度量显示出空间对齐。因此, Q l o c Q_{loc} Qloc定义如下:
Q l o c ( R i , b j ) = L l o c ( O B i l o c ( θ ) , b j l o c ) Q_{loc}(\mathcal{R}_i, b_j) = \mathcal{L}_{loc}(OB_i^{loc}(\theta), b_j^{loc}) Qloc(Ri,bj)=Lloc(OBiloc(θ),bjloc)
  由于 Q l o c Q_{loc} Qloc表示空间位置距离的度量,因为它对方向变化不敏感,尤其是航拍图像中的正方形类物体。考虑到方向对齐,本文使用 Chamfer distance [5_PointSetGeneration]来评估点集和真实框轮廓点的方向差异。本文首先采用MinAeaRect转换函数从学习表征点集从获得四个空间角点(spatial corner points) v 1 , v 2 , v 3 , v 4 {v_1, v_2, v_3, v_4} v1,v2,v3,v4。之后,从相邻的两个角点中等间距采样一个有序点集 R v \mathcal{R}^v Rv(默认40个点)。类似地,对真实角点 g 1 , g 2 , g 3 , g 4 {g_1, g_2, g_3, g_4} g1,g2,g3,g4生成采样点集 R g \mathcal{R}^g Rg。于是,将 Q o r i Q_{ori} Qori定义如下:
Q ori  ( R i , b j ) = C D ( R i v ( θ ) , R b j g ) Q_{\text {ori }}\left(\mathcal{R}_i, b_j\right)=\mathcal{C D}\left(\mathcal{R}_i^v(\theta), \mathcal{R}_{b_j}^g\right) Qori (Ri,bj)=CD(Riv(θ),Rbjg)
其中, C D \mathcal{C D} CD表示上述两组采样点之间的Chamfer距离:
C D ( R v , R g ) = 1 2 n ∑ i = 1 n min ⁡ j ∥ ( x i v , y j v ) − ( x i g , y j g ) ∥ 2 + 1 2 n ∑ j = 1 n min ⁡ i ∥ ( x i v , y j v ) − ( x i g , y j g ) ∥ 2 \begin{aligned} \mathcal{C D}\left(\mathcal{R}^v, \mathcal{R}^g\right) & =\frac{1}{2 n} \sum_{i=1}^n \min _j\left\|\left(x_i^v, y_j^v\right)-\left(x_i^g, y_j^g\right)\right\|_2 \\ & +\frac{1}{2 n} \sum_{j=1}^n \min _i\left\|\left(x_i^v, y_j^v\right)-\left(x_i^g, y_j^g\right)\right\|_2 \end{aligned} CD(Rv,Rg)=2n1i=1njmin (xiv,yjv)(xig,yjg) 2+2n1j=1nimin (xiv,yjv)(xig,yjg) 2
( x i v , y j v ) ∈ R v (x_i^v, y_j^v) \in \mathcal{R}^v (xiv,yjv)Rv表示预测空间角点的采样点, ( x i g , y j g ) (x_i^g, y_j^g) (xig,yjg)表示从真值角点生成的采样点。
  为了衡量单个旋转目标点集的逐点相关性,本文提取了逐点特征,并使用特征向量间的余弦相似度作为学习自适应表征点的相关性度量 Q p o c Q_{poc} Qpoc。令 e i , k e_{i,k} ei,k表示第 i i i组自适应点集的第 k k k个逐点特征向量。 e i , k ∗ e_{i, k}^* ei,k e i ∗ e_{i}^* ei分别表示第 i i i组点集的归一化嵌入特征向量及其均值:
e i , k ∗ = e i , k ∥ e i , k ∥ 2 e i ∗ = 1 N p ∑ k = 1 e i , k ∗ \begin{gathered} e_{i, k}^*=\frac{e_{i, k}}{\left\|e_{i, k}\right\|_2} \\ e_i^*=\frac{1}{N_p} \sum_{k=1} e_{i, k}^* \end{gathered} ei,k=ei,k2ei,kei=Np1k=1ei,k
其中, N p N_p Np表示点集中点的数量,默认设置为9。于是,第 i i i组点集的 Q p o c Q_{poc} Qpoc可以表示为逐点特征的分异度,其公式为:
Q рос  = 1 − 1 N p ∑ k cos ⁡ < e i , k ∗ , e i ∗ > = 1 − 1 N p ∑ k e i , k ∗ ⋅ e i ∗ ∥ e i , k ∗ ∥ × ∥ e i ∗ ∥ \begin{aligned} Q_{\text {рос }} & =1-\frac{1}{N_p} \sum_k \cos <e_{i, k}^*, e_i^*> \\ & =1-\frac{1}{N_p} \sum_k \frac{e_{i, k}^* \cdot e_i^*}{\left\|e_{i, k}^*\right\| \times\left\|e_i^*\right\|} \end{aligned} Qрос =1Np1kcos<ei,k,ei>=1Np1k ei,k ×eiei,kei
  动态 k k k标签分配:基于质量度量 Q Q Q,本文使用一种 top-k 项选择方法来在每次迭代时分配 oriented reppoints samples。对每个目标,在初始化阶段本文根据质量得分对所有点集样本进行排序。为了检索出高质量的自适应点集样本,本文设置采样率 σ \sigma σ在迭代时分配得分最高的前 k k k个样本作为训练的正样本,其计算公式为:
k = σ ∗ N t k=\sigma*N_t k=σNt
其中, N t N_t Nt表示初始化阶段每个旋转目标的点集样本数。
  在训练期间,点分配器(points assigner)[46_RepPoints]用于在初始化阶段获得中心点的样本分配。在细化阶段,本文提出的自适应点评估分配(APAA)方法根据质量度量 Q Q Q选择高质量的点样本(points samples)。只有选中的前景点集才会被分配给目标的真实边界框。如图3所示,APAA方法使检测器在预测高质量方向reppoints时会提高分类置信度和定位分数。值得一提的是,本文提出的方法仅在训练中使用,不会在推理阶段产生计算开销。

4. 实验

4.1 评估设置

  DOTA[34_DOTA]是一个用来评估航拍图像旋转目标的检测器性能的大型数据集,它包含2806张图像、188282个目标实例和15个类别,具有多种不同的方向、尺度和形状。训练集有1411张图像,验证集有458张图像,测试集有937张图像。图像大小范围是从  800 × 800 800\times800 800×800 到  4000 × 4000 4000\times4000 4000×4000。本文的实验将训练集和验证集都用来训练提出的检测器,而没有标注的测试集则用于评估。本文将原始图像裁切成  1024 × 1024 1024\times1024 1024×1024 的图像块,其中步长为824,(overlap为200)。在训练阶段,本文对图像使用随机缩放和翻转来避免过拟合。
  HRSC2016[21_HRSC2016]包含大量不同外观的条状旋转目标,这些目标是从多个著名港口收集,用于进行舰船识别。整个数据集有1061张图像,范围从  300 × 300 300\times300 300×300 到  1500 × 900 1500\times900 1500×900。为了公平对比,将训练集(436张图像)和验证集(181张图像)都用于训练,使用测试集(444张图像)进行验证。
  USAS-AOD[54_USAS_AOD]有1510张图像,其中包含510张车辆图像和1000张飞机图像。总共有14596个目标实例。整个数据集会以 5:2:3 的比例,随机分配755张图像用作训练、302张图像用于验证和453张图像用于测试。所有图像的大小约为  1280 × 659 1280\times659 1280×659
  DIOR-R[2_AOPG]基于DIOR数据集[16_DIOR]给出了旋转边界框标注,用于旋转目标检测的任务。该数据集有23,464张  800 × 800 800\times800 800×800 大小的图像,包含覆盖了20个类别的192,518个目标实例。

4.2 实现细节

  本文基于ResNet50[10_ResNet]和ResNet101主干以及FPN[18_FPN]实现提出的检测方法。在本文中,FPN由 P 3 P_3 P3 P 7 P_7 P7的金字塔层组成。训练中使用了SGD(stochastic gradient descent)优化器。初始学习率设置为0.008,预热(warming up)500次迭代,学习率在每个衰减步骤(decay step)下降为原始值的0.1倍。动量设置为0.9,权重衰减设置为 1 0 − 4 10^{-4} 104。本文对DOTA、DIOR-R、HRSC2016和UCAS-AOD的模型分别训练了40个epochs、40个epochs、120个epochs和120个epochs。训练期间使用了尺度抖动操作(scale jitter)。Focal loss的超参数设置为  α = 0.25 \alpha = 0.25 α=0.25 和  γ = 2.0 \gamma = 2.0 γ=2.0。在公式(2)中,本文根据经验对每个stage设置了平衡权重  λ 1 = 0.3 \lambda_1=0.3 λ1=0.3 和  λ 2 = 1.0 \lambda_2=1.0 λ2=1.0。本文对公式(8)中的质量评估 Q Q Q设置 μ 1 = 1.0 , μ 2 = 0.3 \mu_1 = 1.0, \mu_2 = 0.3 μ1=1.0,μ2=0.3 和  μ 3 = 0.1 \mu_3 = 0.1 μ3=0.1。为了选择采样率 σ \sigma σ的合适值,本文进行了一系列实验,如表6所示。
在这里插入图片描述
  本文使用了搭载4个 RTX 2080Ti 显卡的服务器进行实验,训练使用的 total batch size 为8(每张显卡2张图像),推理时使用单个 RTX 2080Ti 显卡。

4.3 消融研究

  为了检验提出框架中每个组件的有效性,本文使用 ResNet-50-FPN 在DOTA数据集上进行了一系列消融实验。
  评估 oriented conversion functions:传统的基于点集的目标检测器RepPoints[46_RepPoints]通过像 min-max 这样的方形转换函数获得直立的边界框,于是无法处理具有任意朝向的航拍目标。为了建立一个合理的基线,本文比较了在训练和后处理过程中使用不同的转换函数,这些函数用于将自适应点映射到旋转框上。表1展示了相关的实验结果。
在这里插入图片描述
在训练和后处理中均使用 min-max 函数的原始RepPoints,可以实现49.69%的mAP。在后处理中使用提出的旋转MinAeraRect函数来获得旋转矩形框,RepPoints实现了53.21%的mAP。使用可微分的 NearestGTCorner 和 ConvexHull 函数,本文的OrientedRepPoints分别获得了66.97%和68.89%的mAP,这表明方向转换函数对于航拍目标检测是十分重要的。
  对比基于角度的检测器:为了检验自适应点表示方法的有效性,本文在 anchor-based 
检测器上,将所提出的方法与基于角度的方向回归方法进行了对比。在S2ANet[8_S2ANet]中,基于角度的检测器会在初始化阶段对特征图的每个位置预设一个方形锚点,从而预测的基于角度的框会被作为下一阶段的细化锚点来获得旋转边界框。表2显示了两种使用不同主干检测器的结果。
在这里插入图片描述
OrientedRepPoints优于基于角度的方向回归方法,在使用 ResNet-50-FPN 和 ResNet-101-FPN 网络的条件下mAP分别提升 + 1.39 % +1.39\% +1.39% + 1.46 % +1.46\% +1.46%
  评估空间约束:为了研究空间约束的有效性,本文方法在基线方法上对其进行了对比实验。表3显示了相关的实验结果。
在这里插入图片描述
可以看到,本文提出的空间约束时十分有效的,尤其是对于具有弱特征表示的航拍目标,例如:直升机(HC, Helicopter),和其它背景较为相似的目标,例如:棒球场(BD, Baseball Diamond)、桥梁(BR, Bridge)和环岛(RA, Roundabout)。这是因为空间约束强制自适应点位于其归属的实例目标上。
  自适应点学习的APAA方法:为了探究提出的用于自适应点学习的APAA方法,本文首先逐项评估了质量度量的性能。表5展示了对质量评价度量 Q Q Q不同设置的结果。
在这里插入图片描述
检测结果逐步提升,本文提出的方法使用了四项度量实现了 75.97 % 75.97\% 75.97%mAP和 + 5.86 % +5.86\% +5.86%增益的最佳性能。这表明质量评价度量可以有效地反应自适应点在航拍目标检测中的质量。在APAA方法中,分配的自适应点样本的数量是由采样率 σ \sigma σ决定的。如表6所示,模型在  σ = 0.4 \sigma = 0.4 σ=0.4 时达到最佳性能。
在这里插入图片描述
此外,本文对提出的 APAA(Adaptive Points Assessment and Assignment)策略与其他样本分配策略进行了比较,该对比在训练本文提出的检测器的条件下进行,比较的策略包括 Max-IoU [28_FasterRCNN], ATSS [50_ATSS], PAA [13_PAA]和CFA[7_CFA]。如表7所示,本文的APSS策略在没有复杂操作的条件下实现了最佳性能,这表明本文提出的APAA策略对于自适应点学习是有效的。

4.4 对比SOTA方法

  DOTA上的结果:本文展示了单尺度上完整的实验结果,以便与DOTA数据集上之前的方法进行公平比较。使用 ResNet-50-FPN 和 ResNet-101-FPN,本文的方法获得了 75.97 % 75.97\% 75.97% 76.52 % 76.52\% 76.52%的mAP,优于其它使用相同设置的方法。使用 Swin-Transformer 的tiny版本[20_SwinTransformer](Swin-T-FPN)作为主干网络,并带有随机旋转和HSV变换,本文实现了 77.63 % 77.63\% 77.63%mAP的最佳性能。图4显示了在DOTA测试集上的一些可视化结果。
在这里插入图片描述
  HRSC2016上的结果:为了在HRSC2016数据集上进行公平比较,本文报告了使用VOC2007和VOC2012指标的结果。表8显示了实验结果。
在这里插入图片描述
本文的OrientedRepPoints使用ResNet-50-FPN
在VOC2012指标中取得了最佳性能,在VOC2007指标中取得第二好的性能。
  UCAS-AOD上的结果:UCAS-AOD数据集包含了大量的小目标,并具有复杂的周围场景。表9展示了近期的检测模型在UCAS-AOD数据集上的评估结果。
在这里插入图片描述

本文提出的方法实现了 90.11 % 90.11\% 90.11%mAP的最佳性能。
  DIOR-R上的结果:DIOR-R数据集由20类航拍目标构成。与此数据集上近期的检测模型比较,本文的方法以 66.71 % 66.71\% 66.71%的mAP实现了最佳性能,并优于其它方法,结果如表10所示。
在这里插入图片描述

4.5 评估方向准确率

  本文采取进一步实验评估了使用 ResNet-50-FPN 结构的旋转检测器在DOTA数据集上的方向准确率。本文使用了所有类别的平均方向误差(mAOE°, mean Average Orientation Error)作为评估指标。如表11所示,本文提出的方法实现获得了最小的方向误差,这表明本文基于点集的方法比传统基于方法回归的方法,能够有效地实现精确的旋转目标检测。

5 结论

  本文提出了一种有效的航空目标检测器,它利用自适应点作为细粒度表征,能够捕获任意朝向、杂乱纹理和非轴对准目标的关键几何特征。为了有效地学习自适应点,本文引入了质量评估和样本分配方法来度量和选择高质量的点集样本用来训练。此外,本文使用空间约束来惩罚位于旋转框外的点,使得自适应点的学习更加鲁棒。在四种数据集基准上进行了广泛的实验,其积极的结果证明了本文方法的有效性。

致谢

  此项工作得到了中国国家自然科学基金(61831015)资助。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值