【论文学习】Towards Accurate Oriented Object Detection in Aerial Images with Adaptive Multi-level Feature

pinfan12138

已于 2022-09-15 01:05:52 修改

阅读量1.1k

点赞数

文章标签：目标检测计算机视觉深度学习

于 2022-09-15 01:03:54 首次发布

本文链接：https://blog.csdn.net/pinfan12138/article/details/126858360

版权

本文提出了一种名为AFF-Det的两阶段检测器，针对航空图像中的定向物体检测。该检测器通过自适应多级特征融合（MSFF）和级联定向框回归（COR）提高精度。MSFF减轻了高层特征的语义信息损失，而COR解决了水平建议框与定向目标的不匹配。此外，还引入了加权RoI特征融合（WRFA）和旋转解耦-RCNN头，以增强特征表示和提高检测性能。实验证明，AFF-Det在DOTA和HRSC2016数据集上达到了先进的检测结果。

摘要由CSDN通过智能技术生成

AFF-Det：通过自适应多级特征融合实现航空图像中的精确定向目标检测

论文链接：《Towards Accurate Oriented Object Detection in Aerial Images with Adaptive Multi-level Feature Fusion》
代码链接：暂无

本文中提出了一种新型的两阶段检测器，该检测器具有自适应特征融合功能，可以实现航空图像中高精度的定向物体检测，命名为AFF-Det。

摘要

检测航空图像中的物体是一个挑战性的问题，因为航空图像中的物体在尺寸和方向上有很大的不同。大多数现有的基于神经网络的方法都不够强大，无法在航空图像中提供准确的定向物体检测结果，因为它们没有考虑不同层次和尺度的特征之间的相关性。

本文中提出了一种新型的基于网络的两阶段检测器，该检测器具有自适应特征融合功能，可以实现航空图像中高精度的定向物体检测，命名为AFF-Det。首先，一个多尺度特征融合模块（MSFF）建立在提取的特征金字塔的顶层，以减轻小尺度特征的语义信息损失。文中还提出了一种级联的定向边界盒回归方法，将水平建议转化为导向建议。

然后，将转换后的建议分配给所有的特征金字塔网络（FPN）级别，并由加权RoI特征聚合（WRFA）模块进行聚合。上述模块可以根据注意力机制在网络的不同阶段自适应地增强特征表示。最后，引入了一个旋转的解耦-RCNN头来获得分类和定位结果。作者在DOTA和HRSC2016数据集上进行了广泛的实验，以证明AFF-Det的优势。在这两个数据集上，最佳检测结果可以分别达到80.73%mAP和90.48%mAP，超过了最近的最先进方法。

一、介绍

遥感图像中的物体具有任意的方向，因此HBBs不能正确地回归目标物体的边界盒（BBoxes）。为了解决这个问题，两阶段AFF-Det利用定向边界框（OBB）回归分支来定位定向物体。引入了参数θ来表示一个定向物体的方向。AFF-Det提出了一个级联的OBB回归（COR）结构，以将水平的提议转化为定向的提议。基于定向建议，区域特征和定向目标之间的错位可以被消除。因此，我们可以取得比基于HBB的检测器更好的检测结果。

传统的检测器按照自下而上的途径与骨干网络一起提取航空图像特征。从主干网络提取特征后，顶层的特征图被缩放到非常小的尺寸。而这些顶层特征图的通道通常会从2048个减少到256个，然后再从上到下建立FPN。因此，最高层的特征受到了最严重的语义信息损失。为了解决这个问题，作者用基于自我注意机制的多尺度聚合特征来自适应地增强顶层特征表示。然后，增强的多尺度特征被融合和传播以建立FPN。所提出的方法可以极大地缓解小型和集群物体领域的语义信息损失。

此外，基于FPN的两阶段检测器通常从FPN中不同层次的特征图中预测感兴趣区域（RoIs），并采用RoIAlign来提取RoI特征。一般来说，RoI将被分配到不同级别的FPN中，与RoI的尺度有关。具体来说，小尺度的RoI往往会被分配到较低的FPN特征级别，反之亦然。然而，传统方法的分配函数是根据经验用硬编码的超参数得到的，它对航空图像不具有适应性。由于航空图像很大，并且有尺度不同的物体，基于ImageNet的预设分配函数不适合训练。在AFF-Det检测器中，将RoI映射到所有的FPN级别，并在不依赖赋值函数的情况下汇总提取的特征。此外，还以不同的权重自适应地融合和增强来自不同层次的RoI特征。所提出的方法可以自适应地增强网络中的特征，因此可以达到比以前的方法更高的检测精度。

本文提出了一个基于Faster-RCNN的两阶段检测器，用于航拍图像中的定向物体检测。首先，为了自适应地增强backbone提取的特征并减轻语义信息损失，在提取的特征金字塔的顶层建立了一个多尺度特征融合（MSFF）模块。在RPN之后，生成的水平建议首先通过级联的OBB回归头转化为定向建议；然后将旋转的建议分配给所有FPN层，以提取旋转不变的RoI特征。这些特征通过加权RoI特征聚合（WRFA）模块进行自适应融合。最后，引入一个旋转解耦的RCNN头来分类和定位定向物体。与以前的方法不同，旋转的解耦RCNN头没有共享的全连接（FC）层来处理提取的特征；它拥有两个独立的网络分支来获得面向物体的分类和定位结果。

本文的主要贡献如下：

提出了一种新型的两阶段物体检测器，以实现航空图像中高度准确的定向物体检测。提出了级联的OBB回归（COR）方法，以缓解水平建议框和定向真实框之间的不匹配。因此，区域特征可以被提取出来与定向目标相一致，并且结果可以得到明显的提升。

提出了MSFF和WRFA模块，可以自适应地融合具有不同权重的多层次航空图像特征，以减轻语义和背景信息的损失。

引入了旋转的解耦RCNN头，为定向物体检测分别执行分类和定位任务，与耦合的RCNN头相比，它可以实现更好的性能。

为了平衡检测性能和模型复杂度，提出了AFF-Det的轻量级版本，即AFF-Det-Lite。AFF-Det-Lite在DOTA基准测试中可以达到非常有竞争力的准确度，同时大幅降低计算成本。

实验结果表明，所提出的AFF-Det在广泛使用的DOTA和HRSC2016数据集上可以达到最先进的精度。

二、相关工作

一般的物体检测器主要可分为两类：单阶段检测器和双阶段检测器。在这一节中，回顾了为解决基于这两类检测器的定向物体检测问题而提出的方法。

三、方法

3.1 网络结构

图2：框架的整体结构。为了简单起见，本图中省略了提议的级联OBB回归结构。

AFF-Det由主干网络、特征金字塔网络（FPN）、MSFF和WRFA模块、级联的OBB回归头和旋转的解耦RCNN组成。backbone使用ResNet来产生不同层次的特征图，用{C2,C3,C4,C5}表示。然后使用这些特征图建立FPN，并将金字塔级别表示为{P2, P3, P4, P5}。所有用于RoI特征提取的金字塔特征有256个通道。MSFF模块增强了顶层的特征图C5，它的上下文和语义信息损失最为严重。在FPN之后建立了一个级联回归结构来学习旋转的建议，这可以更好地模拟定向目标。在WRFA模块中，Rotated-RoIAlign被用来从基于旋转的RoIs的FPN的每一层中提取特征。这些特征以不同的权重被自适应地融合在一起。然后，来自WRFA模块的融合特征被送入解耦-RCNN头，用于定向物体检测。卷积层和全连接层在解耦RCNN头中分别用于物体分类和定位。

3.2 多尺度特征融合模块（MSFF）

为了建立FPN，所有从骨干中提取的特征{C2,C3,C4,C5}都要经过1×1的卷积层，将特征通道减少到256个。然后，FPN在一个自上而下的路径中通过上采样和element-wisely将多尺度特征P5加入到P2中来融合这些特征。然而，航空图像中存在极小的物体，其相应的特征在金字塔级别C5将被缩减到非常小的尺寸。此外，为了建立FPN，C5的通道通常从2048个减少到P5的256个。基于以上两个原因，FPN中的P5在准确预测检测结果方面有明显的语义信息损失。

图3：多尺度特征融合（MSFF）模块的网络结构。为了简单起见，图中省略了卷积层之前的ReLU激活函数。

图3显示了所提出的MSFF模块的网络结构。首先，通过使用自适应平均池化（AAP）对原始单尺度特征C5生成多尺度特征。考虑到大小为H×W的特征图，多尺度特征的生成可表示为如下：
$H_i×W_i=(S_i×H)(S_i×W)$
其中，Si是人工定义的特征尺度，i∈{1, . . . n}是不同特征尺度的数量。
自适应平均池化可以增强和聚集不同尺度的特征。然后，通过双线性插值对多尺度增强的特征进行上采样，使其具有与C5相同的形状H×W。上采样的数量等于特征尺度的数量n。
在接下来的步骤中，如图3所示，特征被合并起来并分成两个分支。第一个分支利用1×1和3×3卷积层将特征通道减少到尺度数n；然后沿通道维度采用sigmoid函数将每个通道的值自适应归一化为（0，1）之间。归一化的值现在分别代表每个特征尺度的权重。另一个分支首先将原始特征和相应的权重按通道相乘，然后将它们求和，得到最终的增强融合特征。最后，我们将多尺度融合后的特征作为残差连接添加到从C5到P5的原始特征分支中。实验结果表明，由于语义信息的损失被加权的多尺度信息所补偿，MSFF模块可以明显地提高检测精度。

即先将C5按不同的缩放比例平均池化到不同的尺度，再上采样回H×W，再将这些特征concat，这时的特征是nC×H×W，然后将特征
送入分支1，得到n个（1×H×W）的权重张量，送入分支2的split成n个（C×H×W）的张量，然后相乘得到n个（C×H×W）的张量，然后按n维度求和得到（C×H×W）的特征矩阵，把这个特征矩阵当做残差链接加到原本FPN得到的P5上去得到新的P5。

3.3 级联的定向框回归

依靠水平建议会在航空图像中引入RoI特征和定向物体之间的错位。单个探测头很难在水平建议和定向目标BBoxes的情况下统一表现。受Cascaded-RCNN工作的启发，将困难的OBB回归任务分解为两个连续的步骤，如图4所示。

图4：级联定向边界框回归方法（COR）的示意图。I是输入图像，C是分类。HB0表示水平建议； RB1表示vanilla coupled-RCNN检测头H1的旋转BBox输出； RB2表示旋转解耦-RCNN头H2的重构旋转BBox输出。

在这项工作中，作者以从粗到细的方式回归OBBs。在第一个粗回归步骤中，将水平建议（HB0）送入第一个普通的耦合-RCNN检测头H1，以便将其与定向真实框进行回归。第一个检测头将预测水平RoI（HRoI）和定向真实框之间的角度差。在第一个探测头之后，我们可以用预测的角度将水平的RoI转化为旋转的RoI（RRoI）。与HRoI相比，RRoI与定向真实框的不匹配较少。然后，在重构阶段，RRoIs被送入旋转解耦RCNN头H2，用于区域特征提取和最终的定向物体检测。

由于要处理定向框，使用普通的 RoIAlign 操作从 FPN 中提取 RRoI 特征会导致性能下降。在旋转解耦RCNN head（H2）中，采用Rotated-RoIAlign（R-RoIAlign）操作进行旋转不变特征提取。

3.4 加权的ROI特征融合模块（WRFA）

在 FPN 中，不同的特征金字塔级别具有不同的感受野和语义信息，这有益于处理目标检测中的尺度变化问题。因此，FPN 可以显着提高小物体的检测精度，例如航拍图像。对于经典的基于区域的检测器，如 Faster-RCNN或 Mask-RCNN，按如下方程将不同尺度的 RoI 分配给不同的FPN 中的金字塔层 k：
$k=[k_0+log_2\sqrt{wh}/224]$
其中 $k_0$ 是 4，w, h 是每个 RoI 的宽度和高度。 224 是典型的 ImageNet 预训练大小。但是，由于两个原因，此分配函数不适用于遥感图像。首先，遥感图像比 ImageNet 图像大得多。因此方程中的参数 224。不适合AFF-Det。其次，方程式中的参数是硬编码的，不适应图像或特征变化。

图5：加权 RoI 特征聚合 (WRFA) 模块的网络架构。为简单起见，图中省略了卷积层上的 ReLU 激活函数。

在这项工作中，为了消除手动和规范设计的影响，作者提出了旋转解耦 RCNN 头部中的加权 RoI 特征聚合 (WRFA) 模块。与以前的方法不同，本文将转换后的 RRoI 分配给所有 FPN 层，而不是遵循手动设计的分配函数。首先为所有FPN层 {P2, P3, P4, P5} 分配一个 RRoI，以使用 R-RoIAlign 进行特征提取。然后将每个层 i ∈ {2, 3, 4, 5} 的特征 $F_i ∈ R^{C×H ×W}$

最低0.47元/天解锁文章