【论文阅读】Transformer with Transfer CNN for Remote-Sensing-ImageObject Detection

Billie使劲学

已于 2022-08-25 09:05:25 修改

阅读量2.2k

点赞数 2

分类专栏：论文阅读文章标签：深度学习

于 2022-04-08 21:14:18 首次发布

论文阅读专栏收录该内容

15 篇文章

订阅专栏

题目：用于遥感图像目标检测的Trans CNN-Transformer

摘要

1. Introduction

2. The Proposed Transformer-Based RSI Object-Detection Framework

2.1. The Framework of the Proposed TRD

2.2. The Deformable Attention Module

2.3. The Attention-Based Transferring Backbone

2.4. Data Augmentation for RSI Object Detection

3. Data Sets and Experimental Settings

3.1. Data Description

3.2. Evaluation Metrics

3.3. Baseline Methods

3.4. Implementation Details

4. Experimental Results and Discussion

4.1. Comparison Results on the NWPU VHR-10 Data Set

4.2. Comparison Results on the DIOR Data Set

4.3. Ablation Experiments

4.4. Comparison of the Computational Complexity and Inference Speed

4.5. Discussion

5. Conclusions

References

摘要

遥感图像(RSIs) 中的目标检测一直是遥感界一个充满活力的研究课题。最近，基于深度卷积神经网络（CNN）的方法，包括region-CNN-based和You-Only-Look-Once-based方法，已经成为RSI目标检测的事实标准。CNN擅长局部特征提取，但在捕获全局特征方面存在局限性。然而，基于注意的transformer可以在远距离获得RSI的关系。因此，本文研究了用于遥感目标检测（TRD）的transformer。具体来说，所提出的TRD是CNN和带有编码器和解码器的多层变压器的组合。为了从RSI中检测目标，设计了一种改进的transformer，在多个尺度上聚合全局空间位置的特征，并对成对实例之间的交互进行建模。然后，由于源数据集（如ImageNet）和目标数据集（如RSI数据集）存在很大差异，为了减少数据集之间的差异，提出了基于注意机制的Trans-CNN（T-TRD）TRD，以调整预训练模型，从而更好地检测RSI目标。由于transformer的训练总是需要大量的、注释良好的训练样本，而且用于RSI目标检测的训练样本数量通常是有限的，为了避免过度拟合，数据增强与transformer相结合，以提高RSI的检测性能。在两个广泛使用的数据集（即NWPU VHR-10和DIOR）上测试了所提出的带数据增强的T-TRD（T-TRD-DA），实验结果表明，所提出的模型提供了与之相比的竞争结果（即平均精度分别为87.9和66.8，比NWPU VHR-10和DIOR数据集上的比较方法高出最多5.9和2.4倍）竞争性基准测试方法表明，基于变压器的方法为RSI目标检测打开了新的窗口。

关键词：卷积神经网络（CNN）；目标检测；遥感图像；迁移学习；transformer

1. Introduction

遥感图像中的目标检测（RSI）用于回答遥感（RS）领域最基本的问题之一：RSI中的目标（如船舶、车辆或飞机）是什么，在哪里？一般来说，目标检测的目标是建立模型，以定位和识别高分辨率RSI中感兴趣的不同地面目标[1]。由于目标检测是解释高分辨率RSI的一项基本任务，在过去十年中，人们提出了大量方法来处理RSI目标检测问题[2]。

传统的RSI目标检测方法侧重于为感兴趣的目标构造有效的特征，并从一组带注释的RSI中训练分类器。他们通常通过滑动窗口获取目标区域，然后尝试识别每个区域。人们探索了各种各样的特征提取方法，例如单词袋（BOW）[3]、尺度不变特征变换[4]及其扩展，用于表示对象。然后为了进一步提高多特征的表示能力，进行了特征融合和尺寸处理。最后，训练高效且设计良好的分类器来识别目标。例如，Sun等人[5]提出了一种基于空间稀疏编码字袋（SSCBOW）的RSI检测框架，该框架采用旋转不变的空间映射策略和稀疏编码来减少重建误差。Cheng等人[6]探索了一种基于部分检测器集合（COPD）的部分基于模型的RSI对象检测方法，该方法使用线性支持向量机（SVM）作为检测对象或重复模式的部分模型。这些方法可以适应更复杂的任务，但手工制作的特征提取方法严重限制了检测性能。

随着基于手工特征和低效区域建议策略的方法的检测性能变得饱和，在深度卷积神经网络（CNN）出现之前，很难在目标检测方面取得实质性进展[7]。Girshick等人[8,9]利用CNN提取高水平和鲁棒特征的能力，提出了区域CNN（R-CNN）和快速R-CNN，实现了有吸引力的检测性能。这些方法使用CNN从指定数量的生成区域建议（候选边界框）中分类和定位对象。随后，许多研究人员探索了基于R-CNN框架的RSI目标检测方法。Cheng等人[10]将一个完全连接的层插入R-CNN框架主干网络的尾部，并用正则化约束约束插入层，以最小化旋转变化。因此，构造了一个旋转不变的CNN（RICNN）。之后，添加一个fisher判别正则化层来构造增强的RICNN，即RIFD-CNN[11]。受快速R-CNN[12]中区域建议网络（RPN）思想的启发，Li等人[13]提出了多角度锚来建立旋转不敏感的RPN，并使用双通道网络进行文本特征融合。RPN的使用极大地减少了区域建议的时间，并实现了接近实时的速度。此外，为了提高RSI中小目标的检测性能，一些研究人员开始开发基于多尺度特征操作的RSI目标检测方法。受特征金字塔网络（FPN）[14]的启发，Zhang等人[15]提出了一个双多尺度FPN框架，并研究了几种多尺度训练和推理策略。邓等人[16]和郭等人[17]重点研究了多尺度目标提议网络，该网络生成具有不同中间层特征的候选区域，多尺度目标检测网络对获得的区域进行预测。基于R-CNN的RSI目标检测方法在检测性能上取得了很大的进步，但由于冗余计算导致的推理速度不足。

基于R-CNN框架的方法总是先获得区域建议，然后预测类别并细化其坐标；因此，它们被称为两阶段RSI目标检测算法。相比之下，许多研究人员专注于探索只需一步就能完成整个检测的方法，称为单阶段RSI目标检测算法[2]。其中很多方法都是基于物体检测领域最具代表性的研究之一，即You Only Look Once（YOLO）[18]，这是一种极快的物体检测范式。YOLO放弃了寻求区域建议的过程，直接预测边界框坐标和类别，这大大加快了推理过程[18–20]。Pham等人[21]提出了YOLO-fine，它进行了更精细的回归，以增强识别小对象的能力，并通过研究其对各种背景的鲁棒性来解决域适应问题。Alganci等人[22]对YOLO-v3和其他基于CNN的RSI检测器进行了比较，并评估了YOLO在检测精度和计算效率之间提供了最平衡的权衡。此外，一些研究与单激发多盒探测器有类似的想法[23]。Zhuang等人[24]应用了单镜头框架，该框架专注于多尺度特征融合，并提高了检测小对象的性能。总的来说，单阶段RSI检测方法更适合于实时目标检测任务。然而，基于CNN的方法，无论是单阶段还是两阶段，似乎已经达到了进展的瓶颈。
最近，Vaswani等人[25]提出的基于注意力的transformer已经成为机器翻译的标准模型。大量研究表明，这种transformer在图像处理任务中可能也很有效，并取得了突破性进展。Transformer能够远距离获得RSI中的关系[26–28]，这解决了基于CNN的方法捕捉全局特征的困难。因此，在RS社区中，有许多成功的研究集中在基于变压器的模型上。受视觉变换[26]的启发，他等人[29]提出了一种基于变换的高光谱图像分类方法。他们引入了空间光谱变换器，使用CNN提取高光谱图像的空间特征，并使用密集连接的transformer学习光谱关系。Hong等人[30]提出了一种用于高光谱图像的灵活主干网络，名为SpectralFormer，该网络利用了高光谱图像的光谱序列属性，以便按顺序将它们输入到transformer中。Zhang等人[31]提出了一种基于transformer的遥感场景分类方法，该方法设计了一种新的基于多头部自关注（MHSA）的瓶颈用于图像嵌入，并级联编码器块以提高精度。他们都达到了最先进的性能，这表明了transformer在RSI处理中的各种任务中的潜力。然而，对于RSI目标检测，基于transformer的研究仍然不足。Zheng等人[32]提出了一种基于特征金字塔transformer的自适应动态细化单级检测器，该检测器在FPN中嵌入一个transformer，以增强其特征融合能力。Xu等人[33]提出了一种基于Swin Transformer的局部感知主干，用于RSI对象检测和实例分割，并研究了其主干在不同检测框架下的性能。在他们的研究中，Transformer作为一个特征交互模块，即主干或特征融合组件，适用于各种检测框架。最重要的是，由于Transformer在促进人工智能中各种任务架构的统一方面具有巨大潜力，因此有必要进一步探索基于Transformer的RSI对象检测器。

在本文中，我们研究了一种新的基于transformer的遥感对象检测（TRD）框架。拟议的TRD受检测变压器[28]的启发，该transformer将从CNN主干获取的特征作为输入，并直接输出一组检测对象。现有的基于Transformer的RSIs目标检测器[32,33]仍然高度依赖于由各种替代任务组件组成的现有检测框架，如重复预测消除等。拟议的TRD放弃了传统的复杂结构，转而采用独立的、更端到端的框架。此外，TRD中的CNN骨干接受转移学习培训。为了减少源域和目标域的多样性，提出了T-TRD，它利用注意机制调整预先训练好的CNN，以实现更好的传输。此外，由于RSI目标检测的可靠训练样本数量通常不足以训练基于transformer的模型，T-TRD-DA探索了由样本扩展和多样本融合组成的数据挖掘，以丰富训练样本并防止过度拟合。我们希望我们的研究能对基于transformer的RSI目标检测组件的开发有所启发。

总之，以下是本研究的主要贡献。
（1）提出了一种基于端到端transformer的RSI目标检测框架TRD，该框架对transformer进行了重构，以有效地集成全局空间位置的特征，并捕获特征嵌入和对象实例之间的关系。此外，可变形注意模块是TRD的一个重要组成部分，它只关注一组稀疏的采样特征，并缓解了计算复杂度高的问题。因此，TRD可以在多个尺度上处理RSI，并从RSI中识别感兴趣的对象。

（2）预训练的CNN被用作特征提取的主干。此外，为了缓解两个数据集（即ImageNet和RSI数据集）之间的差异，在T-TRD中使用注意机制来重新加权特征，这进一步提高了RSI检测性能。因此，预先训练的主干可以更好地转移，并获得判别金字塔特征。
（3）数据增强，包括样本扩展和多样本融合，用于丰富训练样本的方向、规模和背景的多样性。在提出的T-TRD-DA中，使用不足的训练样本进行基于transformer的RSI目标检测的影响得到了缓解。

2. The Proposed Transformer-Based RSI Object-Detection Framework

图1显示了提议的基于Transformer的RSI对象检测框架的总体架构。首先，使用基于注意的迁移学习的CNN主干提取RSI的多尺度特征图。来自较浅层的特征图具有较高的分辨率，有利于小目标实例的检测，而高层特征具有较宽的接受域，适合大目标检测和全局空间信息融合。所有级别的功能都嵌入在一个序列中。嵌入特征序列经过基于变压器的检测头的编码器和解码器，并传输到一组具有类别和位置的预测。如图所示，来自高级特征映射的输入嵌入点倾向于识别小实例，而来自低级映射的输入嵌入点倾向于识别大实例。详细介绍了基于变换器的RSI目标检测框架，首先介绍了所提出的TRD框架及其变换器中有效的可变形注意模块。随后，详细介绍了基于注意的传输主干和数据扩充。

2.1. The Framework of the Proposed TRD

图2显示了proposed TRD的框架。CNN主干首先用于从RSI中提取金字塔多尺度特征图。然后，它们被嵌入2D位置编码，并转换成可以输入到变压器中的序列。为了处理图像嵌入序列并预测检测到的对象实例，对转换器进行了重构。

所提出的TRD的特征金字塔可以通过精心设计的CNN获得，在本研究中，采用了基于ResNet[34]的检测主干。卷积主干网络的RSI为任意大小的H0×W0作为输入，并生成分层特征地图。具体来说，ResNet从最后三个阶段的输出生成层次结构图，这三个阶段被表示为{f1、f2、f3}和。其他阶段由于其感受野受限和额外的计算复杂性而不包括在内。然后，在每个级别上的特征映射进行1×1卷积，将它们的通道Cl映射到更小、统一的维度d。

因此，获得了三级特征金字塔，表示为{x1，x2，x3}和。此外，通过在x3上进行3×3卷积来获得较低分辨率的特征地图x4。

特征金字塔被进一步处理以馈入transformer。transformer中的MHSA聚合输入元素，不区分它们的位置；因此，transformer具有排列不变性。为了缓解这个问题，我们需要在特征地图中嵌入空间信息。因此，在从卷积主干提取L级特征金字塔之后，在每一级补充2D位置编码。具体来说，原始transformer的正弦和余弦位置编码分别扩展到列和行位置编码。它们都是通过对行或列的维度以及d通道的一半进行编码获得的，然后复制到另一个空间维度。最终和位置编码进行cancat。

Transformer需要一个由相同尺寸的元件组成的序列作为输入。因此，多尺度位置编码特征映射在空间维度上是扁平的，将它们展平成Hl×Wl长度的L序列。输入序列是通过连接L级的序列获得的，其中包括个具有d维度的Hl×Wl标记。特征金字塔中的每个像素都被视为序列的一个元素。然后，transformer对特征点的交互进行建模，并从序列中识别相关的对象实例。

最初的Transformer采用编码器-解码器结构，使用堆叠的自注意力层和全连接层，解码器是自回归的，一次生成一个元素，并将该元素添加到下一代的输入序列中[25]。以不同的方式，这里的转换器将编码器的MHSA层更改为可变注意力层，由于缺乏计算和内存复杂性，这对于建模特征点之间的关系更具吸引力。此外，解码器采用非自回归结构，对元素进行并行解码。详情如下：

编码器将特征嵌入序列作为输入，并输出空间感知元素序列。编码器由N个级联编码器层组成。在每个编码器层中，序列经历一个可变的多头注意层和一个前馈层，这两个层都伴随着层归一化和残差计算，编码器层输出等长的等距元素序列。可变形注意层将特征聚集在自适应场中的某个位置，获得具有远距离关系的特征图。特征点可以用来组成解码器的输入序列。为了降低计算复杂度，将特征点输入评分网络，具体地说，是一个带有softmax层的三层FFN，可以实现为前景和背景的二元分类器。Np最高得分构成一个固定长度的序列，该序列被送入解码器。编码器赋予多尺度特征地图全局空间信息，然后选择数量固定的空间感知特征点集，这些特征点更容易用于检测对象实例。

解码器将基本特征点序列作为输入，并并行输出对象感知元素序列。解码器还包含M个级联解码器层，包括MHSA层、编码器-解码器注意层和前馈层，然后分别进行三层规范化和剩余计算。MHSA层捕获成对特征点之间的交互，这有利于与对象实例相关的约束，例如防止重复预测。每个编码器-解码器注意层将来自解码器中前一层的元素作为查询，并将来自最后一个编码器层的输出的元素作为内存键和值。它使特征点能够关注不同尺度和全局空间位置的特征上下文。每个解码器层的输出嵌入被馈送到层规范化和预测头中，这两个预测头共享不同层的一组公共参数。

预测头进一步将解码器的输出嵌入解码为对象类别和边界框坐标。与大多数现代端到端对象检测架构类似，预测头被分为两个分支，用于分类和回归。在分类分支中，使用带有softmax函数的线性投影来预测每个嵌入的类别。类中附加了一个特殊的“背景”类别，这意味着在查询中没有检测到相关对象。在回归分支中，使用带有ReLU函数的三层完全连接网络生成边界框的规范化坐标。总的来说，头部生成一组Np预测，每组由一个类和相应的盒子位置组成。最终的预测结果是通过去除“背景”得到的。
提出的TRD充分利用了变压器的关系捕获能力，重建了原有的结构和嵌入方案。它探索了一种基于transformer的RSI对象检测范式。

2.2. The Deformable Attention Module

为了提高小目标实例的检测性能，探索了利用多尺度特征映射的思想，其中低水平和高分辨率的特征映射有助于识别小目标。然而，由于MHSA层测量每对参考点的兼容性，高分辨率特征映射导致传统MHSA变压器的计算和存储复杂性较高。相比之下，可变注意模块只关注参考点周围多个自适应位置处的一组固定数量的基本采样点，这大大降低了计算和存储的复杂性。因此，该transformer可以有效地扩展到RSI多尺度特征的聚合。
图3显示了可变注意模块的示意图。该模块为每个标度级别中的每个元素生成特定数量的采样偏移量和注意权重。将不同级别地图采样位置的特征聚合为空间和比例感知元素。

嵌入特征元素的输入序列表示为x。在每个级别，第q个特征元素的标准化位置表示为，可以使用映射功能将其重新缩放到第l级的实际坐标。对于表示为x通道的每个元素，3LK通道线性投影用于获得LK组采样偏移和注意力权重，这是被标准化。然后，分析了LK采样点的特征,通过应用双线性插值从输入特征图重新计算。它们通过乘以注意权重alkq进行聚合，生成空间和尺度感知元素。因此，使用（1）计算可变注意模块的输出序列。

其中，l为L特征级别编制索引，k分别为key和value的k个采样点编制索引。pl是实际坐标的序列和指示第k个采样偏移的顺序,Alk由归一化注意权重alkq组成。

可变注意机制解决了通过自我注意计算处理空间特征的问题。它非常适用于计算机视觉任务中的transformer，并被建议的TRD检测器采用。

2.3. The Attention-Based Transferring Backbone

一般来说，深度CNN可以获得RSI的鉴别特征，用于目标检测。然而，由于RSI目标检测任务通常只有有限的训练样本，而且深度模型总是包含大量参数，因此基于深度学习的RSI目标检测方法通常面临过度拟合的问题。

为了解决过度拟合的问题，本研究采用了迁移学习。在所提出的T-TRD检测器中，使用预先训练好的CNN模型作为RSI特征提取的主干，然后使用基于transformer的检测头来完成目标检测任务。在CNN中，前几次卷积运算提取低层和中层特征，如斑点、角点和边缘，这是图像处理的常见特征[35]。

在RSI对象检测中，适当地重复使用低层和中层表示将显著提高检测性能。然而，由于ImageNet和RSI之间的空间分辨率和成像环境有很大不同，本研究使用注意机制来调整预先训练的模型，以便更好地检测RSI对象。

在原有的注意机制中，人们更多地关注图像中的重要区域，并通过不同的权重分配选定的区域。这种注意机制在文本蕴涵和句子表征中被证明是有效的[36,37]。

在注意机制的激励下，我们重新加权特征图，以减少两个数据集（即RSI和ImageNet）的差异。具体来说，在RSI目标检测中，预训练模型中的特征映射被重新加权，然后转移到主干。当不同特征映射的注意分数较高时，转移特征对后续特征提取更为重要。图4显示了提议的基于注意的传输主干的框架。如图所示，在源域图像数据集上预先训练的模型被传输到T-TRD的主干。通过全局平均池和非线性投影得到注意力权重。最后，根据注意权重对特征图进行重新加权。详细步骤定义如下。

首先，利用全局平均池层对一个卷积层中的特征映射进行信道统计。具体而言，每个特征地图的空间尺寸H'×W'通过以下公式计算：

其中u表示输入特征图，v表示整个特征图的聚合信息。

        接下来，为了捕捉具有不同重要性的特征映射之间的关系，使用了一个由两个完全连接（FC）层和一个ReLU操作组成的神经网络。为了限制模型的复杂性，第一个FC层将特征映射的总数映射到一个固定值（即128），然后进行非线性ReLU操作。此外，第二个FC层将要素贴图的数量恢复到其初始维度。通过反向传播学习神经网络中的参数，可以获得反映不同特征映射之间重要性的交互。
        最后，不同特征映射的注意值由sigmoid函数输出，该函数将值限制在0到1之间。每个特征图将获得的注意值相乘，以区分不同特征图的重要程度。
        上述步骤用于提议的基于注意的传输主干。将注意力值重新加权的特征从ImageNet转移到RSI可以提高特征的可分辨性，从而通过学习更重要的转移特征和削弱不重要的特征来减少两个数据集之间的差异。

2.4. Data Augmentation for RSI Object Detection

据报道，基于transformer的视觉模型比CNN更可能过度拟合，在有限的数据集上具有同等的计算复杂性[26]。然而，用于目标检测的RSI数据集中的训练样本数量通常不足。此外，RSI样本中的对象通常分布稀疏，这是训练基于transformer的检测模型的一种低效方法。因此，在T-TRD的训练策略中加入了一种由样本扩展和多样本融合组成的数据增强方法，以提高检测性能。

设为训练样本。我们定义了一组四个直角旋转变换和另一组两个水平翻转变换。这两个集都应用于所有训练样本，生成×8扩展样本集。

对于扩展集合中的每个样本，我们从集合中随机选择三个样本，并将四个样本混合成一个更大的固定大小样本。采样在交点的左上角、右上角、左下角和右下角连接。然后，通过灰度填充生成融合图像大小的空白画布。然后，随机生成交点的标准化坐标，限定范围为0.25到0.75。通过对齐交点，将连接的样本粘贴到画布上。画布边界外的合成图像和框将被裁剪。图5显示了复合RSI样本的几个示例。最后，将随机尺度和作物增长应用于复合样本。

随着数据的增加，训练样本不足的问题得到了缓解。提出的T-TRD-DA在增强的训练数据集上训练一个基于transformer的检测模型，该数据集具有更大的尺度、方向、背景等多样性，从而防止提出的深度模型过度拟合。

3. Data Sets and Experimental Settings

3.1. Data Description

        建议的TRD、T-TRD和T-TRD-DA在NWPU VHR-10[6]和DIOR[2]数据集上进行评估，这两个数据集都是RSIs中用于多类目标检测的广泛使用的公共数据集。
        NWPU VHR-10数据集包含从Google Earth和Vaihingen数据集收集的800个非常高分辨率的RSI[38]。有一个带注释的“正像集”和一个“负像集”。“负图像集”中的150幅图像不包含相关类别中的对象，这些类别用于探索半监督和弱监督算法。“阳性图像集”中的650张图像用10类对象注释，这些对象用于实验，并分为130张图像的训练集、130张图像的验证集和390张图像的测试集。
        DIOR数据集是RSI目标检测中最具挑战性的大规模基准数据集之一。有23463张从Google Earth获取的图像，以及在DIOR数据集中标注的192472个对象的20个类别。与其他数据集相比，该数据集的图像和对象实例具有更高的类内变异性和类间相似性。因此，DIOR数据集被认为适用于RSI目标探测器的培训和评估，尤其是基于深度学习的探测器。在实验中，根据[2]中的官方设置，训练集、验证集和测试集的数量分别为5862、5863和11738。

3.2. Evaluation Metrics

在实验中，使用每个类别的平均精度（AP）和平均平均精度（mAP）来评估所提出的检测器。一般来说，第c类APc的AP根据召回值（R）计算，相应的精度值（Pc（R））通过公式（3）计算，这也是类别的精度-召回曲线下的面积，mAP通过公式（4）计算c类APc的平均值。

对于特定类别，为了获得精度-召回曲线，我们需要使用公式（5）计算成对精度值，并使用公式（6）计算召回值。具体来说，假设共有K个边界框被分类到该类别中。每个预测结果包括坐标和边界框的分类置信度。如果地面真值（GT）框与其自身之间的IOU大于阈值γ，则边界框为真正（TP）；否则，它被认为是假阳性（FP）。此外，如果一个GT框对应多个TP边界框，则IOU最大的框保留为TP，其他框被视为FP。如果GT盒没有相应的TP，则GT盒被视为假阴性（FN）。在公式（5）和（6）中，TP、FP、FN代表TP、FP、FN盒的数量；因此，精确度和召回率是无量纲的，TP+FN等于GT盒数（GT）。在实践中，根据置信度对边界框进行排序，每次都使用前k个边界框计算精度和召回值。通过将k从1取到k来获得精度-召回曲线。在实验中，根据RSIs中的目标检测基准，将IOU阈值γ设置为0.5。

精确度可以被认为是所有预测中正确预测的百分比，召回率可以是所有GT框中可以检测到的GT框的比例。查准率-查全率曲线可以反映查准率和查全率之间的关系。一个更好的检测器应该具有更高的精确度和召回率，因此它的地图也应该更高。

3.3. Baseline Methods

在实验中，九种baseline方法被广泛用作RSIs中目标检测的比较基准，用于评估所提出的检测器。具体而言，在NWPU VHR-10数据集上，baseline方法包括传统方法，如SSCBOW[5]和COPD[6]，以及基于深度学习的方法，如RICNN[10]、R-P-更快的R-CNN[39]、YOLO v3[20]、可变形的R-FCN[40]、更快的RCNN[12]和带FPN的更快的RCNN[17]。对于DIOR数据集，选择基于区域建议的方法，包括RICNN、更快的RCNN、带FPN的更快的RCNN、带FPN的掩模RCNN[41]和基于锚定的方法YOLO v3进行综合比较。

3.4. Implementation Details

ResNet[34]被认为是object detection社区中最有效的主干网络之一。ResNet的剩余操作解决了深度网络中的退化问题；因此，它可以实现更大的网络并提取高级语义特征。根据大多数基线方法的选择，我们采用ImageNet预训练的ResNet-50。为了区分不同尺度的特征地图，除了二维位置编码外，多尺度特征地图中还嵌入了可学习的尺度级编码。
transformer的编码器和解码器都有六个注意模块，每个模块由八个注意头组成。输入嵌入的尺寸d设置为256。每个可变形注意力计算K的采样关键帧数设置为4。在NWPU VHR-10数据集上，所选特征点Np的数量设置为300。然而，在DIOR数据集上，这个数字被设置为600，因为图像在DIOR数据集中可能有300多个对象实例。

探测器使用AdamW优化器进行训练，将重量衰减设置为1×10−4.transformer的初始学习率设置为1×10−4，而其他可学习参数的设置为1×10−5.[28]中的组合损耗函数用于优化，但分类部分修改为焦点损耗[42]。其他训练和参数初始化策略也遵循[28]。
提出的方法是使用MMDetection[43]实现的，这是一个开源的对象检测框架，由OpenMMLab提出。这些实验是在一个科学计算工作站上进行的，该工作站配有Intel Xeon Silver CPU和双特斯拉V100 MAX-Q GPU，总内存为32 GB。

4. Experimental Results and Discussion

提出的基于transformer的检测器基于这两个数据集进行训练。提供并分析了定性推理结果和定量评估结果。对于图6-8中的定性推断结果，蓝色边界框包围的区域表示地面真相，检测结果用红色边界框标记。此外，还给出了每个检测框的类别和置信值。在定量评估结果中，报告了放大100个探测器的APs和MAP，并给出了每个类别的精度-召回曲线。此外，还附上了烧蚀实验的结果，以验证所提出方法中模块的有效性。对于表1-5中的定量评估结果，与其他方法相比，粗体数字代表了最佳性能。最后，对所提出的方法与基线方法的计算复杂度和推理速度进行了比较。

4.1. Comparison Results on the NWPU VHR-10 Data Set

图6显示了基于NWPU VHR-10数据集的拟议变压器检测器的定性推断结果。如图所示，建议的T-TRDDA可以检测RSI中的大多数对象实例，并正确识别它们的类别。即使对象实例很小，很难检测到，T-TRD-DA仍然表现良好。图7提供了拟议的T-TRD-DA和YOLO v3之间的定性比较。在图7a、b中，较小的储罐均由拟定的T-TRD-DA检测，而YOLO v3忽略了其中一些储罐。在图7c，d中，T-TRD-DA识别出几乎所有的车辆，而YOLO v3漏掉了超过一半的车辆。因此，与YOLO v3相比，拟建的T-TRD-DA不易受到小规模物体、集群物体或被浅滩遮挡的物体等的影响。

表1显示了NWPU VHR-10数据集的比较结果，其中ST表示储罐，BD表示棒球钻石，TC表示网球场，BC表示篮球场，GT表示地面田径场。如表所示，与传统的基于BOW的SSCBOW方法和基于SVM的COPD方法相比，基于CNN的方法显示出明显的优势。在RSIs中基于CNN的目标检测方法中，速度较快的RCNN是最具代表性的方法，它可以快速提供区域建议，然后进行精确预测。FPN通常用于从CNN主干中提取特征的多尺度特征融合，有效地增强了小目标实例的检测能力。因此，使用FPN的快速RCNN是相对有竞争力的RSIs目标检测基线方法。然而，所提出的TRD优于所有基线方法，并优于具有FPN基线的更快RCNN，在mAP上的改进为0.02。TRD基于变压器的探测头在提取RSIs特征的主干相同的情况下，显示了其强大的探测能力，超过了基于CNN的探测头，这证明了在RSIs中使用变压器进行目标检测的可行性。此外，随着拟议的基于注意的传输主干网和数据增强的推广，T-TRD-DA实现了更好的检测性能，其mAP达到0.879，并在所有类别中获得了优秀的AP。因此，这些改进可以在基于变压器的RSI目标检测框架上取得有效进展。

此外，表2中报告了拟议方法和基线方法在特定标度范围（即大、中、小）对象上的比较结果。快速RCNN基线的映射在检测小对象时受到限制，因为其主干仅输出最高级别的特征，这些特征分辨率低，导致检测性能差。能够进行多尺度特征融合的FPN有效地解决了这一问题。因此，具有FPN基线的快速RCNN在小对象上实现了极大的改进。所提出的TRD和T-TRD-DA可以在不使用FPN的情况下聚合多尺度特征，并且对小目标也具有出色的检测能力。此外，所提出的基于变压器的检测器在大目标和中间目标上也表现良好，这意味着更好的整体检测能力。

4.2. Comparison Results on the DIOR Data Set

为了进一步评估拟议的基于变压器的检测器的有效性，在DIOR数据集上对检测器进行训练，并与更具竞争力的基线方法进行比较。图8显示了在DIOR数据集上提出的T-TRD-DA的定性推断结果。显然，所提出的T-TRD-DA在大规模挑战数据集上表现出直观的令人满意的检测能力。图9给出了每个类别的精确性-召回曲线，直观地显示了精确性和召回之间的详细关系。ETA和ESA分别是高速公路收费站和高速公路服务区的缩写。可以看出，所提出的T-TRD-DA探测器在大多数类别中表现出优越的性能，如飞机、地面田径场、网球场等。

表3显示了DIOR数据集的结果，并将拟议的TRD和T-TRD-DA与五种具有代表性的基于深度学习的方法进行了比较，包括20个类别的AP值和地图。在这些基线方法中，最初设计用于对象实例分割的Mask RCNN从更快的RCNN扩展而来，实现了最先进的对象检测性能。有了FPN，更快的RCNN和掩码RCNN都可以检测各种尺度的目标，并在整体检测性能上取得了巨大进步。此外，如表4所示，与更快的RCNN和带FPN的更快的RCNN相比，建议的TRD在三个标度范围内获得了出色的检测能力，尤其是在小对象上。所提出的T-TRD-DA实现了最佳性能，这归功于多尺度特征嵌入。最重要的是，利用Transformer强大的上下文建模功能，所提出的基于Transformer的检测器可以准确地检测复杂RSI中感兴趣的对象。

4.3. Ablation Experiments

在两个数据集上进行了四组烧蚀实验，以评估拟议T-TRD-DA改进的效率，结果见表5。结果表明，对基于注意的传输主干网的改进和数据扩充都有利于TRD的检测性能。传输主干利用从源域数据中学习到的知识提取RSI的更有效特征，然后使用注意机制自适应调节通道特征。此外，数据增强还丰富了对象实例的方向、尺度和背景，从而增强了检测器的泛化性能。因此，最终的T-TRD-DA实现了具有竞争力的检测能力，并显示了变压器在RSI目标检测方面的巨大潜力。

4.4. Comparison of the Computational Complexity and Inference Speed

为了评估这些方法的计算效率，表6中报告了拟议的基于变压器的方法和三种基线方法的浮点运算（FLOP）值和推理速度。使用MMDetection分析工具测量每种方法的FLOPs和FPS，两种数据集的输入大小均为800×800。如图所示，所提出的基于变压器的检测模型的失败率接近于基线方法的模型，并且仅高于YOLO v3。然而，由于变压器的计算成本较高，推理速度仍有待提高。

4.5. Discussion

在实验中，对提出的基于变压器的方法进行了评估，并与最先进的基于CNN的RSI对象检测框架进行了比较。实验证明了所提出的基于变压器的框架的有效性，以及它们相对于基于CNN的框架的优势。
从图6-8中的定性推断结果可以看出，拟议的T-TRD-DA能够准确识别各种类别、规模和方向的物体。预测的边界框与GT框非常接近。此外，从表1和表3中的定量评估结果来看，在NWPU VHR-10数据集上，TRD和T-TRD-DA分别达到了82.9和87.9，在DIOR数据集上，按百分图分别达到了64.6和66.8。

从表5中的烧蚀实验来看，与TRD相比，拟议的T-TRD在NWPU VHR-10数据集上的百倍图上获得了0.6的改进。这并不是一个很大的成功，但它表明，适当调整特征映射可以获得更好的RSI检测性能。此外，就NWPU VHR-10数据集的百倍地图而言，TRD-DA提高了3.7。TRD-DA中的数据扩充缓解了因训练样本有限而导致的过度拟合问题。通过这两项改进，拟议的T-TRD-DA在NWPU VHR-10数据集上的百倍地图上提高了5.0。因此，基于注意的传输主干和数据增强在所提出的T-TRD-DA中既有效又不可或缺。
从表1和表3中可以看出，所提出的TRD和T-TRD-DA方法都超过了所有竞争性的基于CNN的RSI目标检测方法。例如，更快的RCNN在DIOR数据集上的mAP值仅为0.554。拟议的TRD基于精心设计的变压器，在DIOR数据集上的mAP值为0.646。对比实验的结果揭示了所提出的基于变压器的方法的优点，下面将对其进行讨论。

        首先，基于CNN的方法擅长目标检测。然而，对于RSI对象检测任务，由于空间尺寸较大（例如，DIOR数据集的空间尺寸为800×800），很难获得RSI的全局表示。Transformer善于捕捉远距离关系，因此可以获得更具辨别力的特征。
        其次，基于CNN的方法通常需要FPN[14]进行多尺度特征融合，以提高对小对象的性能。从表2和表4可以看出，与基于CNN的FPN方法相比，TRD和T-TRD-DA在不同尺度的物体上表现更好，尤其是在小物体上。与FPN在所有尺度的相同位置添加下采样特征相比，本文提出的基于变压器的框架能够自适应地集成不同尺度的不同关键位置的特征；因此，它实现了令人印象深刻的小目标检测性能。
        此外，代表性的基于CNN的框架，如更快的RCNN[12]或YOLO v3[20]，通常基于锚。然而，锚生成的尺寸、数量和纵横比的设置会影响检测性能。提出的TRD和T-TRD-DA聚合了金字塔特征，并获取了空间和水平感知特征点，用于表示实例。因此，所提出的方法是无锚的，便于训练。
        此外，从表6中可以看出，尽管在TRD和T-TRD-DA中开发了可变形注意，以简化变压器的计算，但提出的方法的推理速度比基于CNN的方法慢。需要对提高推理速度进行更多的研究。
        最重要的是，在这项研究中，提出了一种改进的变压器结合传输CNN用于RSI目标检测。详细的实验和分析表明了所提出的基于变压器的框架的优越性。此外，还分析了其不足之处，为进一步研究基于变压器的RSI检测方法奠定了基础。

5. Conclusions

        在这项研究中，基于变压器的框架被探索用于RSI对象检测。结果发现，变压器能够很好地获得远距离关系；因此，它可以捕捉RSI的全球空间和尺度感知特征，并检测感兴趣的对象。所提出的TRD使用预先训练好的CNN提取局部判别特征，并对变换器进行修改，以处理RSI的特征金字塔，并以端到端的方式预测对象的类别和框坐标。通过结合CNN和Transformer的优点，不同术语的实验结果表明，TRD对不同尺度的物体，尤其是小物体，取得了令人印象深刻的RSI目标检测性能。
        TRD仍有很大的改进空间。一方面，使用预先训练好的CNN面临数据集移位的问题（即，源数据集和目标数据集非常不同）。另一方面，RSI目标检测的训练样本不足，无法训练基于变压器的模型。因此，为了进一步提高TRD的性能，将基于注意的传输主干和数据增强与TRD相结合，形成T-TRD-DA。对各种结构，即TRD、T-TRD、TRD-DA和T-TRD-DA的烧蚀实验表明，这两种改进及其组合是有效的。T-TRD-DA被证明是最先进的RSI目标检测框架。
        与基于CNN的框架相比，提出的T-TRD-DA被证明是一种更好的检测架构。在提议的框架中没有锚、非最大抑制或FPN。然而，T-TRD-DA在检测小目标方面超过了YOLO-v3和带有FPN的更快的RCNN。作为基于变压器的检测方法的早期阶段，T-TRD-DA显示了基于变压器的RSI目标检测方法的潜力。然而，提出的转换框架存在推理速度慢的问题，这是另一个有待进一步研究的课题。
最近，一些变压器的改进，包括自训练变压器和转移变压器，可以在不久的将来用于RSI目标检测。
        本研究报告的结果对有效的RSI目标检测具有一定的指导意义，这表明基于变压器的方法在RSI目标检测领域具有巨大的研究价值。

References

1. Cheng, G.; Han, J. A survey on object detection in optical remote sensing images. ISPRS J. Photogramm. Remote Sens. 2016, 117, 11–28. [CrossRef]

2. Li, K.; Wan, G.; Cheng, G.; Meng, L.; Han, J. Object detection in optical remote sensing images: A survey and a new benchmark. ISPRS J. Photogramm. Remote Sens. 2019, 159, 296–307. [CrossRef]

3. Lou, X.; Huang, D.; Fan, L.; Xu, A. An image classification algorithm based on bag of visual words and multi-kernel learning. J. Multimed. 2014, 9, 269–277. [CrossRef]

4. Lowe, D.G. Distinctive image features from scale-invariant keypoints. Int. J. Comput. Vis. 2004, 60, 91–110. [CrossRef]

5. Sun, H.; Sun, X.; Wang, H.; Li, Y.; Li, X. Automatic target detection in high-resolution remote sensing images using spatial sparse coding bag-of-words model. IEEE Geosci. Remote Sens. Lett. 2012, 9, 109–113. [CrossRef]

6. Cheng, G.; Han, J.; Zhou, P.; Guo, L. Multi-class geospatial object detection and geographic image classification based on collection of part detectors. ISPRS J. Photogramm. Remote Sens. 2014, 98, 119–132. [CrossRef]

7. Krizhevsky, A.; Sutskever, I.; Hinton, G. ImageNet classification with deep convolutional neural networks. In Proceedings of the Advances in Neural Information Processing Systems, Lake Tahoe, NV, USA, 3–6 December 2012.

8. Girshick, R.; Donahue, J.; Darrell, T.; Malik, J. Rich feature hierarchies for accurate object detection and semantic segmentation. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, Columbus, OH, USA, 23–28 June 2014

9. Girshick, R. Fast R-CNN. In Proceedings of the IEEE International Conference on Computer Vision, Santiago, Chile, 13–16 December 2015.

10. Cheng, G.; Zhou, P.; Han, J. Learning rotation-invariant convolutional neural networks for object detection in VHR optical remote sensing images. IEEE Trans. Geosci. Remote Sens. 2016, 54, 7405–7415. [CrossRef] 11. Cheng, G.; Han, J.; Zhou, P.; Xu, D. Learning rotation-invariant and fisher discriminative convolutional neural networks for object detection. IEEE Trans. Image Process. 2019, 28, 265–278. [CrossRef]

12. Ren, S.; He, K.; Girshick, R.; Sun, J. Faster R-CNN: Towards real-time object detection with region proposal networks. IEEE Trans. Pattern Anal. Mach. Intell. 2017, 39, 1137–1149. [CrossRef]

13. Li, K.; Cheng, G.; Bu, S.; You, X. Rotation-insensitive and context-augmented object detection in remote sensing images. IEEE Trans. Geosci. Remote Sens. 2018, 56, 2337–2348. [CrossRef]

14. Lin, T.Y.; Dollar, P.; Girshick, R.; He, K.; Hariharan, B.; Belongie, S. Feature pyramid networks for object detection. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, Honolulu, HI, USA, 21–26 July 2017.

15. Zhang, X.; Zhu, K.; Chen, G.; Tan, X.; Zhang, L.; Dai, F.; Liao, P.; Gong, Y. Geospatial object detection on high resolution remote sensing imagery based on double multi-scale feature pyramid network. Remote Sens. 2019, 11, 755. [CrossRef]

16. Deng, Z.; Sun, H.; Zhou, S.; Zhao, J.; Lei, L.; Zou, H. Multi-scale object detection in remote sensing imagery with convolutional neural networks. ISPRS J. Photogramm. Remote Sens. 2018, 145, 3–22. [CrossRef]

17. Guo, W.; Yang, W.; Zhang, H.; Hua, G. Geospatial object detection in high resolution satellite images based on multi-scale convolutional neural network. Remote Sens. 2018, 10, 131. [CrossRef]

18. Redmon, J.; Divvala, S.; Girshick, R.; Farhadi, A. You only look once: Unified, real-time object detection. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, Las Vegas, NV, USA, 27–30 June 2016.

19. Redmon, J.; Farhadi, A. YOLO9000: Better, faster, stronger. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, Honolulu, HI, USA, 21–26 July 2017.

20. Redmon, J.; Farhadi, A. Yolov3: An incremental improvement. arXiv 2018, arXiv:1804.02767.

21. Pham, M.-T.; Courtrai, L.; Friguet, C.; Lefèvre, S.; Baussard, A. YOLO-Fine: One-Stage Detector of Small Objects Under Various Backgrounds in Remote Sensing Images. Remote Sens. 2020, 12, 2501. [CrossRef]

22. Alganci, U.; Soydas, M.; Sertel, E. Comparative Research on Deep Learning Approaches for Airplane Detection from Very High-Resolution Satellite Images. Remote Sens. 2020, 12, 458. [CrossRef]

23. Liu, W.; Anguelov, D.; Erhan, D.; Szegedy, C.; Reed, S.; Fu, C.; Berg, A.C. SSD: Single shot multibox detector. In Proceedings of the European Conference on Computer Vision, Las Vegas, NV, USA, 27–30 June 2016.

24. Zhuang, S.; Wang, P.; Jiang, B.; Wang, G.; Wang, C. A Single Shot Framework with Multi-Scale Feature Fusion for Geospatial Object Detection. Remote Sens. 2019, 11, 594. [CrossRef]

25. Vaswani, A.; Shazeer, N.; Parmar, N.; Uszkoreit, J.; Jones, L.; Gomez, A.N.; Kaiser, Ł.; Polosukhin, I. Attention is all you need. In Proceedings of the Advances in Neural Information Processing Systems, Long Beach, CA, USA, 4–9 December 2021.

26. Dosovitskiy, A.; Beyer, L.; Kolesnikov, A.; Weissenborn, D.; Zhai, X.; Unterthiner, T.; Gelly, S. An image is worth 16 × 16 words: Transformers for image recognition at scale. In Proceedings of the International Conference on Learning Representations, Virtual Event, 3–7 May 2021.

27. Liu, Z.; Lin, Y.; Cao, Y.; Hu, H.; Wei, Y.; Zhang, Z.; Lin, S.; Guo, B. Swin transformer: Hierarchical vision transformer using shifted windows. arXiv 2021, arXiv:2103.14030.

28. Nicolas, C.; Francisco, M.; Gabriel, S.; Nicolas, U.; Alexander, K.; Sergey, Z. End-to-End Object Detection with Transformers. In Proceedings of the European Conference on Computer Vision, Glasgow, UK, 23–28 August 2020.

29. He, X.; Chen, Y.; Lin, Z. Spatial-Spectral Transformer for Hyperspectral Image Classification. Remote Sens. 2021, 13, 498. [CrossRef]

30. Hong, D.; Han, Z.; Yao, J.; Gao, L.; Zhang, B.; Plaza, A.; Chanussot, J. SpectralFormer: Rethinking hyperspectral image classification with transformers. arXiv 2021, arXiv:2107.02988. [CrossRef]

31. Zhang, J.; Zhao, H.; Li, J. TRS: Transformers for Remote Sensing Scene Classification. Remote Sens. 2021, 13, 4143. [CrossRef]

32. Zheng, Y.; Sun, P.; Zhou, Z.; Xu, W.; Ren, Q. ADT-Det: Adaptive Dynamic Refined Single-Stage Transformer Detector for Arbitrary-Oriented Object Detection in Satellite Optical Imagery. Remote Sens. 2021, 13, 2623. [CrossRef]

33. Xu, X.; Feng, Z.; Cao, C.; Li, M.; Wu, J.; Wu, Z.; Shang, Y.; Ye, S. An Improved Swin Transformer-Based Model for Remote Sensing Object Detection and Instance Segmentation. Remote Sens. 2021, 13, 4779. [CrossRef]

34. He, K.; Zhang, X.; Ren, S.; Sun, J. Deep Residual Learning for Image Recognition. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, Las Vegas, NV, USA, 27–30 June 2016.

35. Oquab, M.; Bottou, L.; Laptev, I.; Josef, S. Learning and transferring mid-level image representations using convolutional neural networks. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, Columbus, OH, USA, 23–28 June 2014.

36. Lin, Z.; Feng, M.; Santos, C.N.D.; Yu, M.; Xiang, B.; Zhou, B.; Bengio, Y. A structured self-attentive sentence embedding. In Proceedings of the International Conference on Learning Representations, Toulon, France, 24–26 April 2017.

37. Aurelio, Y.; Almeida, G.; Castro, C.; Braga, A. Learning from imbalanced data sets with weighted cross-entropy function. Neural Process. Lett. 2019, 50, 1937–1949. [CrossRef]

38. Michael, C. The DGPF-test on digital airborne camera evaluation overview and test design. PFG Photogramm.-Fernerkund. Geoinf. 2010, 2, 73–82

39. Han, X.; Zhong, Y.; Zhang, L. An efficient and robust integrated geospatial object detection framework for high spatial resolution remote sensing imagery. Remote Sens. 2017, 9, 666. [CrossRef]

40. Xu, Z.; Xu, X.; Wang, L.; Yang, R.; Pu, F. Deformable ConvNet with aspect ratio constrained NMS for object detection in remote sensing imagery. Remote Sens. 2017, 9, 1312. [CrossRef]

41. He, K.; Gkioxari, G.; Dollár, P.; Girshick, R. Mask r-cnn. In Proceedings of the IEEE International Conference on Computer Vision, Venice, Italy, 22–29 October 2017.

42. Lin, T.Y.; Goyal, P.; Girshick, R.; He, K.; Dollár, P. Focal loss for dense object detection. In Proceedings of the IEEE International Conference on Computer Vision, Venice, Italy, 22–29 October 2017.

43. Chen, K.; Wang, J.; Pang, J.; Cao, Y.; Xiong, Y.; Li, X.; Sun, S.; Feng, W.; Liu, Z.; Xu, J.; et al. MMDetection: Open MMLab detection toolbox and benchmark. arXiv 2019, arXiv:1906.07155