结合CNN与Transformer,实现遥感图像处理性能巅峰,霸榜顶会顶刊!

还记得CNN+Transformer这个热门组合吗?最近发现它在遥感图像领域有不少高质量成果。比如顶刊Nat. Commun.上的GlaViTU 模型,一区IEEE TGRS上的SparseFormer(用于稀疏点标注遥感语义分割)、 LGCNet 模型等。

其实这也是遥感图像领域的发展趋势,这类混合架构通过轻量化设计(如Lite-Mono参数减少80%)和高效注意力机制(如LeWin模块),显著提升任务性能,完美契合工业界需求,研究前景很广阔(论文er可试)。

这方向现下仍处于快速发展期,结合领域特性的创新模型(如针对遥感多模态、高分辨率等特点)比较容易产出高水平论文,感兴趣的同学不妨从架构轻量化、多模态融合、动态计算等方向着手研究。

本文整理了11篇CNN+Transformer+遥感相关的新论文,方便论文er找参考,尽量找的开源的,大家有什么问题欢迎评论区友好交流~

全部论文+开源代码需要的同学看文末

TCNet: Multiscale Fusion of Transformer and CNNfor Semantic Segmentation of Remote Sensing Images

方法:论文提出的 TCNet 是一种将 CNN 和 Transformer 结合用于遥感图像语义分割的创新方法。通过充分利用局部和全局信息,TCNet 在多个数据集上展示了优越的性能,证明了其在遥感图像分割任务中的有效性。

创新点:

  • 介绍了一种名为TCNet的网络,采用并行分支架构,其中Transformer分支用于获取全局上下文,而CNN分支则用于捕获低级空间细节。

  • 提出了一种新颖的融合技术,称为交互自注意力(ISa),用于融合从两个分支中提取的多层次特征。

  • 开发并应用了一种名为窗口自注意力门控(WSaG)的跳跃连接模块,集成到渐进上采样网络(PUN)中。

CMLFormer: CNN and Multiscale Local-Context Transformer Network for Remote Sensing Images Semantic Segmentation

方法:论文提出了一种新颖的CMLFormer网络架构,结合轻量级CNN和多尺度局部上下文Transformer,用于遥感图像的语义分割,以解决现有方法在全局和局部信息整合上的不足,通过设计多尺度局部上下文变换块(MLTB)和特征增强模块(FEM)来提升分割性能。

创新点:

  • MLTB模块通过结合注意力机制和多尺度策略,在不增加复杂度的情况下有效捕捉局部和全局特征信息。

  • 提出了一种特征增强模块,能够在通道和空间维度上实现全局与局部信息的综合融合。

  • CMLFormer采用了轻量级的ResNet-18作为编码器,并结合了CNN和Transformer的优势。

CD-CTFM: ALightweight CNN-Transformer Network for Remote Sensing Cloud Detection Fusing Multiscale Features

方法:论文提出了一种轻量级卷积神经网络-Transformer网络(CD-CTFM),用于改进遥感图像中的云检测,其基于编码器-解码器架构,结合注意力机制,能够在保留准确性的同时提升效率。

创新点:

  • 结合CNN和Transformer的轻量级网络骨干,用于同时提取局部和全局特征。

  • 在编码器和解码器之间的每个跳步连接中集成LWCSAM,以提取低级特征同时抑制无关信息。

  • 引入无参数HFF技术解决栅格效应,使用SD块代替常规DC,低成本下提升准确度。

CTST: CNNand Transformer-Based Spatio-Temporally Synchronized Network for Remote Sensing Change Detection

方法:该论文提出了一种结合CNN和Transformer的时空同步遥感变化检测网络(CTST),旨在通过动态权重分配方法增强模型对全球依赖性的理解和局部特征的提取效果,采用边缘增强和时间同步模块来提升对复杂地表变化的检测精度和效率。

创新点:

  • 通过多尺度卷积和通道注意力结合的方式,有效捕获特征中的有效信息并抑制无关信息。

  • 通过改进的双流交互注意模块 (DSIAM),设计相关性映射分布算法,优化双时特征之间的相互作用和信息提取质量。

  • 提出一种创新的双流结构用于多场景特征信息处理,通过特征拼接和求和运算,确保解码阶段的跨尺度信息融合和特征互补。

关注下方《学姐带你玩AI》🚀🚀🚀

回复“结合遥感”获取全部方案+开源代码

码字不易,欢迎大家点赞评论收藏

### 基于Transformer遥感图像分割方法概述 在处理遥感图像分割任务时,基于Transformer的方法因其强大的全局建模能力和灵活性而受到广泛关注。这类模型能够有效捕捉空间中的长程依赖关系,从而提高分割精度。 #### 类似UNet架构的Transformer实现 面向遥感城市场景图像语义分割的应用场景下,存在一种类似于UNet结构但融入了Transformer机制的设计方案[^1]。此设计不仅继承了传统UNet编码-解码框架的优点——即通过跳跃连接保留细节信息;还引入了自注意力机制,在更深层次上理解输入数据的空间特性。具体而言: - **编码阶段**:利用卷积层提取基础特征,并逐步降低分辨率; - **中间转换部分**:部署多个带有位置感知特性的多头自注意模块,强化对复杂背景的理解; - **解码过程**:逐渐恢复原始尺度的同时,融合来自低层次的信息以确保边界清晰度。 ```python import torch.nn as nn class Transformer_UNet(nn.Module): def __init__(self, num_classes=20): super(Transformer_UNet, self).__init__() # 编码器定义... self.encoder = ... # 中间转换组件(含Transformer) self.transformer_block = ... # 解码器定义... self.decoder = ... def forward(self, x): encoded_features = self.encoder(x) transformed_output = self.transformer_block(encoded_features) final_result = self.decoder(transformed_output) return final_result ``` #### ST-UNet的具体应用实例 对于追求更高性能的需求方来说,ST-UNet提供了一种更为先进的选择。该网络集成了Swin Transformer作为核心构件之一,旨在解决大规模高分辨率遥感影像的数据挑战。它巧妙地结合局部窗口内的自我关注操作跨通道交互作用,实现了计算效率和表达力之间的良好平衡[^2]。 #### SMBCNet的变化检测流程 当涉及到不同时期遥感图片对比分析的任务时,SMBCNet展示了一个完整的解决方案路径。这一过程中,先是获取到两个时刻点上的RGB三通道图像组合[H×W×3],接着经由预训练好的Transformers生成一系列具有不同缩放比例的特征映射。这些经过初步加工后的表示会被送入特定设计的成本估计模块(Cost Estimation Module),用于加强前后两版特征间的关联性描述。最终,在一个多层级联式的解码单元里完成像素级别的分类决策,输出反映差异区域的地图[^3]。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值