遥感中的 Transformers 综述

点击上方“小白学视觉”,选择加"星标"或“置顶

重磅干货,第一时间送达

编者荐语

 

文章涵盖了60多种基于transformers的最新方法,用于解决遥感子领域的不同遥感问题:非常高分辨率(VHR)、高光谱(HSI)和合成孔径雷达(SAR)图像。

转载自丨专知


仅用于学术分享,若侵权请联系删除

3ccfff2e496965dd763a0415d46306d3.png

在过去的十年中,基于深度学习的算法在遥感图像分析的不同领域中得到了极大的普及。最近,最初在自然语言处理中引入的基于transformers的架构已经遍及计算机视觉领域,其中自注意力机制已经被用来替代流行的卷积算子来捕获远程依赖。受计算机视觉最近进步的启发,遥感界也见证了对视觉transformers在各种不同任务中的探索。尽管许多调查都集中在计算机视觉中的transformers上,但据我们所知,我们是第一个对基于遥感transformers的最新进展进行系统综述的人。我们的调查涵盖了60多种基于transformers的最新方法,用于解决遥感子领域的不同遥感问题:非常高分辨率(VHR)、高光谱(HSI)和合成孔径雷达(SAR)图像。我们通过讨论transformers在遥感中的不同挑战和开放问题来总结调研。此外,我们打算经常更新和维护遥感论文中最新的transformers,它们各自的代码: https: //github.com/VIROBO-15/Transformer-in-Remote-Sensing

https://www.zhuanzhi.ai/paper/bfb0308c1fdd624df840a15426edb230

导论


遥感成像技术在过去几十年里取得了显著的进步。现代机载传感器以更高的空间、光谱和时间分辨率对地球表面进行大范围覆盖,在生态学、环境科学、土壤科学、水污染、冰川学、陆地测量和地壳分析等众多研究领域发挥着至关重要的作用。遥感成像的自动分析带来了独特的挑战,例如,数据通常是多模态的(如光学或合成孔径雷达传感器),位于地理空间(地理位置),通常在全球范围内,数据量不断增长。

深度学习,尤其是卷积神经网络(CNNs)已经主导了计算机视觉的许多领域,包括物体识别、检测和分割。这些网络通常以RGB图像作为输入,并执行一系列卷积、局部归一化和池化操作。CNN通常依赖于大量的训练数据,然后得到的预训练模型被用作下游各种应用的通用特征提取器。基于深度学习的计算机视觉技术的成功也激励了遥感界,在许多遥感任务中取得了重大进展,包括高光谱图像分类、变化检测和高分辨率卫星实例分割。

卷积运算是CNN的主要组成部分之一,它捕获输入图像中元素(如轮廓和边缘信息)之间的局部相互作用。CNN编码的偏差,如空间连通性和翻译等方差。这些特性有助于构建可推广和高效的体系结构。然而,局部接受域在CNN限制建模的远程依赖图像(如,遥远的部分关系)。此外,卷积是内容独立的,因为卷积滤波器的权值是固定的,对所有输入应用相同的权值,而不管它们的性质。近年来,视觉transformers (ViTs)[1]在计算机视觉的各种任务中表现出了令人印象深刻的性能。ViT基于自注意力机制,通过学习序列元素之间的关系有效地捕获全局交互。最近的研究[2],[3]表明ViT具有内容依赖的远程交互建模能力,可以灵活调整其接受域以对抗数据中的干扰并学习有效的特征表示。因此,ViT及其变体已成功地用于许多计算机视觉任务,包括分类、检测和分割。

278159defd1933f57efa9a7307632e6b.png

随着ViTs 在计算机视觉领域的成功,遥感界也见证了基于transformers的框架在许多任务中的应用的显著增长(见图1),如高分辨率图像分类、变化检测、平移锐化、建筑物检测和图像字幕。这开启了利用ImageNet预训练[4]-[6]或使用视觉transformers进行遥感预训练[7]的不同方法的有前景的遥感研究的新浪潮。同样,文献中也存在基于纯transformers设计[8]、[9]或基于transformers和CNN的混合方法[10]-[12]的方法。因此,由于针对不同遥感问题的基于transformers的方法迅速涌入,跟上最近的进展变得越来越具有挑战性。在这项工作中,我们回顾了这些进展,并提出了最新的基于transformers的方法在流行的遥感领域。综上所述,我们的主要贡献如下:

本文对基于transformers的模型在遥感成像中的应用进行了全面综述。据我们所知,我们是第一个在遥感中介绍transformers的调研,从而弥合了计算机视觉和遥感在这一快速增长和流行领域的最新进展之间的差距。

  • 我们概述了CNN和transformers,讨论了它们各自的优点和缺点。

  • 本文综述了60多项基于transformers的研究工作,讨论了遥感领域的最新进展。

  • 在此基础上,讨论了遥感transformers面临的不同挑战和研究方向。

论文的其余部分组织如下:第二节讨论了其他有关遥感成像的调研。在第三节中,我们概述了遥感中不同的成像方式,而第四节提供了CNN和视觉transformers的简要概述。之后,我们回顾了基于transformers的方法在非常高分辨率(VHR)成像(第五节)、高光谱图像分析(第六节)和合成孔径雷达(SAR)方面的进展。在第八部分,我们总结了我们的调研,并讨论了潜在的未来研究方向。

遥感图像数据集


遥感图像通常从各种来源和数据收集技术获得。遥感影像数据的典型特征是其空间、光谱、辐射和时间分辨率。空间分辨率指的是图像中每个像素的大小,以及对应像素所代表的地球表面的面积。空间分辨率的特点是成像场景中可以分离的微小和精细特征。光谱分辨率是指传感器通过识别更细的波长来收集场景信息的能力,具有更窄的波段(如10 nm)。另一方面,辐射分辨率表征了每个像素的信息程度,传感器的动态范围越大,就意味着在图像中可以识别出更多的细节。时间分辨率是指在地面上获取的相同位置的连续图像之间所需的时间。在此,我们简要讨论常用的遥感成像类型,图2所示的例子。

086585bcb8e13b83b830df2070f5fb49.png

Transformers 遥感图像处理


6f35aa67d5f087aa11c85ef4b44e1767.png

近年来,基于transformers的模型在许多计算机视觉和自然语言处理(NLP)任务中取得了很好的结果。Vaswani等人[17]首先将transformers作为注意力驱动模型引入机器翻译应用。为了捕获长距离依赖关系,transformers使用自注意力层,而不是传统的循环神经网络,后者努力编码序列元素之间的这种依赖关系。为了有效地捕捉输入图像中的远程依赖关系,[1]的工作引入视觉转换器(ViTs)来完成图像识别任务,如图3所示。ViTs[1]将图像解释为补丁序列,并通过与NLP任务中使用的类似的传统transformers编码器对其进行处理。ViT在通用视觉数据中的成功不仅激发了计算机视觉的不同领域的兴趣,也激发了遥感社区的兴趣,近年来,许多基于ViT的技术已被探索用于各种任务。

34a4529b42cb3afc0e0d5dadda7b4eaa.png

遥感场景分类是一个具有挑战性的问题,其任务是自动关联一个语义类别标签到一个给定的高分辨率图像,包括地物和不同的土地覆盖类型。在现有的基于视觉transformers的VHR场景分类方法中,Bazi等人[4]探讨了标准视觉transformers 架构[1](ViT)的影响,并研究了产生加法数据的不同数据增强策略。此外,他们的工作还评估了通过修剪层次来压缩网络的影响,同时保持分类精度。

在VHR成像中,由于物体的尺度变化和类别的多样性,目标的定位是一个具有挑战性的问题。这里的任务是同时识别和定位(矩形或定向边界框)图像中属于不同对象类别的所有实例。大多数现有的方法采用混合策略,结合有线电视网络和transformers 的优点在现有的两级和单级探测器。除了混合策略,最近很少有研究探讨基于DETR的transformers 目标检测范式[36]。

在遥感中,图像变化检测是探测地表变化的一项重要任务,在农业[50]、[51]、城市规划[52]、地图修订[53]等方面有着广泛的应用。这里的任务是生成通过比较多时间或双时间图像获得的变化图,所得到的二进制变化图中的每个像素根据对应位置是否发生了变化而具有0或1值。在最近的基于transformer的变化检测方法中,Chen等人[54]提出了一种双时间图像transformer,封装在一个基于深度特征差异的框架中,旨在对时空上下文信息建模。在提出的框架中,编码器被用于捕获基于标记的时空中的上下文。然后将所得到的上下文化令牌提供给解码器,在解码器中,特征在像素空间中进行细化。Guo等人[55]提出了一种深度多尺度连体结构,称为MSPSNet,利用并行卷积结构(PCS)和自我关注。本文提出的MSPSNet通过PCS对不同时间点图像进行特征集成,然后基于自注意力的特征细化,进一步增强多尺度特征。

在遥感领域,通过像素级分类自动将图像分割为语义类是一个具有挑战性的问题,其应用范围广泛,包括地质调查、城市资源管理、灾害管理和监测等。现有的基于transformers的遥感图像分割方法通常采用混合设计,目的是结合CNNs和transformers的优点。[65]提出了一种基于transformers的轻型框架Efficient-T,该框架包含隐式边缘增强技术。提出的Efficient-T采用分层式Swin-transformers和MLP头。[66]中引入了一种耦合的CNN-transformers框架,称为CCTNet,旨在将CNN捕捉到的局部细节,如边缘和纹理,以及通过transformers获得的全局上下文信息结合起来,用于遥感图像的裁剪分割。此外,还引入了测试时间增强和后处理等模块,在推理时去除孔洞和小目标,从而恢复完整的分割图像。

be88ab7e3c6746fd3bc3c3e190bd076c.png

在这项工作中,我们介绍了遥感成像transformers的广泛概述:非常高分辨率(VHR),高光谱和合成孔径雷达(SAR)。在这些不同的遥感图像中,我们进一步讨论了基于transformers 的各种任务的方法,如分类、检测和分割。我们的调研涵盖了60多个基于transformers 的遥感研究文献。我们观察到transformers 在不同的遥感任务中获得了良好的性能,这可能是由于它们捕获远程依赖关系的能力以及它们的表示灵活性。此外,几种标准transformers 架构和主干的公开可用性使得探索它们在遥感成像问题中的适用性变得更加容易。

下载1:OpenCV-Contrib扩展模块中文版教程

在「小白学视觉」公众号后台回复:扩展模块中文教程,即可下载全网第一份OpenCV扩展模块教程中文版,涵盖扩展模块安装、SFM算法、立体视觉、目标跟踪、生物视觉、超分辨率处理等二十多章内容。


下载2:Python视觉实战项目52讲
在「小白学视觉」公众号后台回复:Python视觉实战项目,即可下载包括图像分割、口罩检测、车道线检测、车辆计数、添加眼线、车牌识别、字符识别、情绪检测、文本内容提取、面部识别等31个视觉实战项目,助力快速学校计算机视觉。


下载3:OpenCV实战项目20讲
在「小白学视觉」公众号后台回复:OpenCV实战项目20讲,即可下载含有20个基于OpenCV实现20个实战项目,实现OpenCV学习进阶。


交流群

欢迎加入公众号读者群一起和同行交流,目前有SLAM、三维视觉、传感器、自动驾驶、计算摄影、检测、分割、识别、医学影像、GAN、算法竞赛等微信群(以后会逐渐细分),请扫描下面微信号加群,备注:”昵称+学校/公司+研究方向“,例如:”张三 + 上海交大 + 视觉SLAM“。请按照格式备注,否则不予通过。添加成功后会根据研究方向邀请进入相关微信群。请勿在群内发送广告,否则会请出群,谢谢理解~
<think>好的,我现在需要帮助用户了解如何在Python中安装transformers库。首先,我得回想一下自己安装这个库时的经验,或者查阅相关资料确保步骤正确。用户可能对Python环境管理不太熟悉,所以我应该从基础开始,比如使用pip安装,然后考虑可能的依赖项。 首先,transformers库由Hugging Face开发,通常需要Python 3.6或更高版本。我需要提醒用户检查Python版本,避免版本过低导致的问题。安装命令方面,基本的pip install transformers应该足够,但可能需要同时安装PyTorch或TensorFlow,因为transformers依赖这些深度学习框架。这时候应该分情况说明:如果用户已经安装了其中一个框架,可能不需要额外步骤;如果没有,建议根据官方文档安装对应版本。 另外,用户可能遇到安装速度慢的问题,这时候可以建议使用国内镜像源,比如清华的镜像。例如,pip install transformers -i https://pypi.tuna.tsinghua.edu.cn/simple。这也是常见的优化方法,能提升安装效率。 还有虚拟环境的问题。虽然用户可能已经知道,但提醒使用venv或conda创建隔离环境是个好习惯,避免包冲突。这部分可能需要简单解释一下如何创建虚拟环境,比如python -m venv myenv,然后激活环境。 安装完成后,验证是否正确安装也很重要。可以建议用户运行简单的导入语句,如from transformers import pipeline,如果没有报错,说明安装成功。或者尝试运行一个示例代码,比如文本分类的pipeline,确保功能正常。 潜在的问题可能包括依赖冲突、权限问题或网络连接失败。这时候需要给出解决方案,比如使用--user参数安装,或者升级pip版本。另外,如果用户需要特定版本的transformers,应该说明如何指定版本号,比如pip install transformers==4.0.0。 总结起来,回答应该分步骤进行,从安装前的准备(Python版本、虚拟环境)、安装命令、国内镜像加速、验证安装到常见问题解决。确保用户按照步骤操作能够顺利完成安装,并处理可能遇到的障碍。</think>以下是Python中安装🤗 Transformers库的详细步骤: 1. 前置准备 - Python版本要求:>=3.6(推荐3.8+) - 推荐先创建虚拟环境(任选其一): ```bash # venv方式 python -m venv transformers-env source transformers-env/bin/activate # Linux/macOS transformers-env\Scripts\activate.bat # Windows # conda方式 conda create -n transformers-env python=3.8 conda activate transformers-env ``` 2. 基础安装 ```bash pip install transformers ``` 3. 推荐搭配深度学习框架(二选一): ```bash # 安装PyTorch(最新版本) pip install torch torchvision torchaudio # 或安装TensorFlow(最新版本) pip install tensorflow ``` 4. 国内加速安装(使用清华镜像): ```bash pip install transformers -i https://pypi.tuna.tsinghua.edu.cn/simple ``` 5. 验证安装 ```python from transformers import pipeline # 测试文本分类pipeline classifier = pipeline("sentiment-analysis") result = classifier("I love using Transformers!") print(result) # 应该输出类似 [{'label': 'POSITIVE', 'score': 0.9998}] ``` 常见问题解决: 1. 权限问题:添加`--user`选项 ```bash pip install --user transformers ``` 2. 指定版本安装: ```bash pip install transformers==4.28.1 ``` 3. 升级现有版本: ```bash pip install --upgrade transformers ``` 附加组件(按需安装): ```bash # 安装包含所有依赖(开发/训练需要) pip install transformers[torch,tf,sentencepiece,testing] # 安装数据集支持 pip install datasets # 安装加速推理的onnx运行时 pip install onnxruntime ``` 建议后续操作: 1. 访问Hugging Face官网(https://huggingface.co/)注册账号 2. 登录获取API token用于模型下载: ```python from huggingface_hub import notebook_login notebook_login() ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值