【论文笔记】Transformer in Remote Sensing：A Survey-CSDN博客

本文链接：https://blog.csdn.net/lmt_like/article/details/126847085

1 论文标题

标题： Transformer in Remote Sensing：A Survey
发表地方： pass

2 论文的结构

2.0 Abstract

作者想解决什么问题？

目前，基于深度学习的算法在遥感图像分析领域得到大量普及。近几年，应用于NLP的transformer在视觉领域同样表现得很好，遥感界也出现优秀的VIT方法。但是很多综述都集中调查在计算机视觉的transformer上，所以作者对遥感图像界的transformer进行调查。

作者调查的范围？

我们的调查涵盖了60多个最新的基于transformer的方法，用于遥感领域的不同遥感问题：甚高分辨率（VHR）、高光谱（HSI）和合成孔径雷达（SAR）图像。在最后，作者也讨论了遥感中transformer的不同挑战和开放问题。

2.1 Introduction

卷积神经网络和transformer？

深度学习，尤其是卷积神经网络已经主导了计算机视觉的许多领域，包括物体识别、检测、分割。但是卷积模块也有缺陷，比如，限制了建模的远程依赖图像（遥远的部分关系）。
VIT在计算机视觉各个任务都表现的比较好，其中的自注意力机制可以有效的捕捉全局交互，并且具有内容依赖的远程交互建模能力可以很好的排除干扰并有效学习特征表示，所以VIT在许多计算机视觉任务都表现的不错。

这篇文章的主要贡献？

1、作者对对基于变压器的模型在遥感成像中的应用进行了全面综述。并且作者是第一个在遥感中介绍transformer的综述。
2、作者对CNN和transformer都进行了概述，讨论他们各自的优缺点。
3、作者综述了超过60种基于transformer的方法，并且讨论了遥感领域的最新进展。
4、作者基于之前的研究，提出了遥感transformer面临的挑战和研究方向。

2.2 Related work

和作者这篇论文相关的综述有哪些？

Tuia et al.[13]对比和比较了不同用于监督遥感图像分类的主动机器学习算法; zhu et al.[15]对深度学习技术在遥感图像分析中的应用提出全面的综述;他们的工作研究了不同的遥感任务，如图像配准、融合、场景分类和目标分割。

作责这篇论文和其他相关综述有哪些区别？

作者的工作主要是介绍了遥感领域种流行的基于transformer方法的最新进展。并且这篇文章是第一篇全面介绍遥感transformer方法的综述，特别是对于高分辨图像、高光谱和合成孔径雷达图像分析的进展。

2.3 REMOTE SENSING IMAGING DATA

hyperspectral、VHR、SAR

VHR图像有利于土地利用变化检测、对象检测、实力分割、精确农业耕作和应急响应。传感器技术的最新进展以及基于深度学习的新技术允许使用VHR遥感图像来分析沿海和内陆水域的生物物理和生物地球化学过程。
Hyperspectral:连续光谱延伸波长超出可见光谱，包括波长从紫外线(UV)到红外(IR)。通常高光谱图像的光谱分辨率是用波数和纳米(nm)来表示的。此图像应用于环境科学和采矿。在遥感领域，高光谱图像的自动分析是一个活跃的研究课题。
SAR:可用于地理定位、目标检测、基本雷达的功能，以及复杂环境下的地球物理特征估计，如粗糙度、水分含量和密度,还可用于灾害管理(浮油探测、冰跟踪)、林业和水文。

2.4 FROM CNNS TO VISION TRANSFORMERS

卷积神经网络(CNNs)

卷积神经网络常见的backbone：AlexNet(image classification task)、VGGNet、ResNet。CNNs的缺点：不捕捉远程依赖。

Vision Transformers(VIT)

在这里插入图片描述

transformer常见的backbone:Vit、Swin、PVT、

2.5 TRANSFORMERS IN VHR IMAGERY

Scene Classification

Bazi et al[4]探讨了标准transformer的影响，并且调查了产生额外数据的不同数据增强策略。此外，他们还评估了通过删除层来压缩网络带来的影响，同时还保持了分类的准确性。
P.Deng et al[31]提出了一种连接CNN-transformer结构，其中包含一个CNN流和一个transformer流。再将两个特征进行融合，使用一个联合损失函数来训练整个框架。
Zhang et al[32]提出一种名为Remote Sensing Transformer(TRS) 的框架,该方法通过使用多头自注意力机制代替空间卷积来结合CNNs和Transformer的优点。
S.Hao[5]作者引入了一个双流Swin transformer(TSTNet),其中包括两个流：原始流和边缘流, 原始流提取标准图像特征，而边缘流包含可区分的边缘Sobel算子模块，提供边缘信息。引入了加权特征融合模块，有效融合两流的特征，提高分类性能。
J.Ma[6]引入一个transformer框架，并且设计了一个补丁生成模块，用于生成同构和异构的补丁。
D.Wang[7]在大规模的MillionAID遥感数据集上从头开始研究训练视觉变压器骨干网，如Swin。训练得到的骨干模型将针对不同的任务进行微调。由响应图可以看出，RSP模型通过更多地关注重要目标来学习更好的语义表示。此外，ViTAEv2-S融合了CNNs和变压器优点和RSP的骨干可以获得更好的识别性能。
在这里插入图片描述

Object Detection

大多数现有的方法采用混合策略，在现有的两阶段和单阶段检测器中结合CNN和变换器的优点。除混合策略外，最近的一些研究也探索了基于DETR的transformer物体检测范式。
X. Xu[37]提出了一个Swin transformer的backbone来改进标准的transformer，这个模型被用于VHR图像中的小尺寸物体。所提出的LPSW结合了CNNs和Transformer的优点，提高了局部感知能力。
Q. Li[39]提出了一个基于变压器的检测架构，其中一个预先训练好的CNN被用来提取特征，一个变压器被调整为处理遥感图像的特征金字塔。
Zhang et al.[40]采用一个transformer的分支来提高CNNs的全局感知能力。此外，一个生成模型被用来在主干网络之前扩展输入的遥感航空图像。
Y. Zheng[41]提出了一个基于RetinaNet的检测框架，在骨干网络和后处理网络之间利用特征金字塔Transformer（FPT）来产生有语义的特征。FPT实现了不同级别的特征之间跨尺度的互动。
J. Tang[42]采用了transformer来模拟采样特征的关系，以便对其进行适当分组。因此，无需任何后处理操作就能获得更好的分组和边界框预测。所提出的方法有效地消除了背景信息，有助于实现更好的检测性能。
Zhang et al[43]提出一种混合结构，结合可分离卷积的局部特征和MLP的全局特征。
Q. Zhou[44]介绍了一个两阶段的无角度的检测器，包括RPN和回归都是无角度的。
Liu et al[45]提出了了一个名为TransCovNet混合网络结构，其通过聚合全局和局部信息来解决CNN的转转不变性和更好的关注上文，从而结合CNN和transformer的优势。
W,Li[46]介绍了一个名为Oriented Rep-Points的检测框架。这个框架利用无锚方法从分类、定位和定向中学习选择点样本。为了学习任意方向的空中物体的几何特征，引入了一个质量评估和样本分配方案，测量和识别高质量的样本点进行训练。
L. Dai[48]提出了一个基于transformer的检测器，称为AO2-DETR，其中采用了一个定向建议生成方案来明确地产生定向对象建议。
对比图：
在这里插入图片描述

Image Change Detection

Chen et al.[54]提出一个双时态图像transformer，被封装再一个基于深度特征差分的框架中，目的是为时空背景信息进行建模。在此框架中，encoder模块被用来提取时空背景，然后输入到decoder中。
Guo et al.[55]提出一个深度多尺度连体结构（MSPSNet）,它利用平行卷积结构（PCS）和自我注意的方式,通过PCS对不同时间的图像进行特征整合，然后基与自注意力机制进行特征细化，进一步增强多尺度特征。过PCS对不同时间的图像进行特征整合，然后基于自我注意进行特征细化，进一步增强多尺度特征。
C. Zhang[56]提出了一个针对变化检测的基于Swin transformer的连体U型形状的结构（SwinSUNet）。其中包含三个模块：encoder、融合器、decoder。
Wang et al.[57]介绍一个名为UVACD的架构。它将CNNs和transformer相结合用于变化检测。其中，高层次的语义特征由CNN主干来提取，transformer主要用来通过捕捉时间信息来产生更好的变化特征。
Q. Li[58]介绍了一个名为TransUNetCD的混合结构，它将transformer和UNet的优点相结合，由CNN提取encoder的特征，并用全局性的上下文信息来补充它们。
Q. Ke[59]介绍了一种名为Hybrid-TransCD的多尺度transformer，它通过利用多个感受野的异质标记来捕捉细粒度和大物体特征。
在这里插入图片描述
主流算法可视化图

Image Segmentation

Z. Xu[65]提出一种名为Efficient-T轻量级基于transformer的模型，还提出一个隐性边缘增强技术。
H. Wang[66]一处一种名为CCTNet，结合了CNN和transformer的框架，目的是将CNN捕获的局部细节与transformer捕获的全局背景信息相结合用于遥感图像的作物分割。
L. Gao[67]提出一种名为STransFuse的混合框架，在这个框架中，多个尺度的粗粒度和细粒度的特征表征都被提取出来，随后利用自注意机制自适应地组合起来。
C. Zhang[68]提出一种混合框架，采用Swin transformer与U型decoder相结合，U型decoder可以更好的保留图像中的局部细节。
T. Panboonyuen[69]利用预先训练好的Swin Transformer主干和三种decoder设计，即U-Net、特征金字塔网络和金字塔场景解析网络，用于航空图像的语义分割。
在这里插入图片描述

在变化检测中的transformer总结

在这里插入图片描述

由变化章节提出的对比图中发现，基于transformer的方法在结果上超出FC-EF系列方法，其中Swin SUNet框架表现最好。

2.6 TRANSFORMERS IN HYPERSPECTRAL IMAGING

在高光谱图像中，，没有基于transformer的方法应用于变化检测和目标检测任务中，所以这个章节略过。

2.7 TRANSFORMERS IN SAR IMAGERY

Segmentation and Detection

X. Ke[146]提出一种名为GCBANet的基于transformer的方法，此方法采用了一个全局上下文块来编码空间上的整体长距离依赖关系。
Xia et al.[147]介绍了一个名为CRTransSar的混合框架。它结合了CNN和transformer的优点，捕获局部和全局信息。
L. Chen[148]介绍了一个地理空间transformer框架，包括图像分解、多尺度地理空间背景关注和重构等步骤，用于检测SAR图像中的飞机。
P. Zhang[149]中提出了一个用于SAR图像中飞机检测的特征关系增强框架。

Change Detection in SAR Images

H. Dong[163]提出了一种自监督的对比性表征学习技术，使用卷积增强的transformer构建分层表征，以区分HR SAR图像的变化。引入了一个基于卷积的模块，以便在局部窗口内进行自我注意计算时，实现跨窗口的互动。

2.8 DISCUSSION AND CONCLUSION

这篇论文最大的贡献是什么？

对遥感成像中的transformer进行了广泛的概述：超高分辨率（VHR）、高光谱和合成孔径雷达（SAR）。可以观察出transformer在不同的遥感任务中获得了良好的性能，这可能是由于它们捕捉长距离依赖的能力以及它们的表示灵活性。

作者提出的研究方向

1、大多数现有的基于transformer的方法都是采用在ImageNet数据集上预训练的backbone。而D. Wang[7]探索在大规模遥感数据集上预训练VIT。但是在这两种预训练都是以监督的方式进行的。一个研究方向是通过考虑大量的未标记的遥感成像数据，以自监督的方式探索大规模的预训练。
2、现有的方法往往都是采用一个混合的框架，目的是为了结合卷积和自注意力的优点，但是transformer往往是需要消耗大量的计算资源，现有的一些方法已经开始改进transformer，在文中[167-169]已经开始尝试减少运算。此外，由于transformer要求数据集要足够大。所以有一个研究方向是设计基于轻量级transformer的骨干网，以对遥感图像中的检测方向的目标进行分类。另一个研究方向是探索基于transformer的模型对异质图像源的适应性，如SAR和UAV（变化检测）。