Mamba杀入遥感！RS-Mamba：第一个使用SSM进行遥感图像语义分割和变化检测

最新推荐文章于 2024-08-29 16:52:25 发布

Amusi（CVer）

最新推荐文章于 2024-08-29 16:52:25 发布

阅读量1.2k

点赞数 1

原文链接：https://mp.weixin.qq.com/s?__biz=MzUxNjcxMjQxNg==&mid=2247596157&idx=2&sn=825604233767b3590e60301eaafb215a&chksm=f81078c92edae8cbdea0c631d869b6c4a244f4d441588bb3aac30a45ad4ddb8a077046539fd5&scene=126&sessionid=0

版权

点击下方卡片，关注“CVer”公众号

AI/CV重磅干货，第一时间送达

点击进入—>【Mamba和遥感】微信交流群

添加微信：CVer5555，小助手会拉你进群！

扫描下方二维码，加入CVer学术星球！可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料，及最前沿应用！发论文/搞科研/涨薪，强烈推荐！

内容总结（太长不看版）

Mamba在大语言模型大放异彩，以其线性复杂度和媲美transformer的表现，被认为是transformer的有力替代。近期工作Vim和VMamba将Mamba引入到视觉图像领域，引爆了视觉领域的众多领域，涌现出大量使用Mamba进行视觉任务的研究。

RS-Mamba首次将Mamba引入到遥感进行超高分辨率遥感图像的密集预测任务，利用它的线性复杂度和全局建模能力来处理大遥感图像。

之前的遥感模型主要可以分为基于CNN和基于transformer。基于CNN的模型由于局部卷积操作，无法对遥感图像进行全局建模，基于transformer的模型由于二次方复杂度无法处理大的超高分辨率遥感图像，将大的图像裁剪为小的图像块会损失大量的上下文信息。

近期的工作Vim和VMamba虽然将Mamba引入了视觉图像领域，但是它们只在图像的横向或者纵向进行选择性扫描，适合主要空间特征分布在横向或者纵向的自然图像，但是不适合空间特征分布在任意方向的遥感图像。

针对上述问题，RS-Mamba创新性的提出了全向选择性扫描模块，在多个方向对遥感图像进行选择性扫描，从而能够提取出多个方向的大尺度空间特征。同时由于RS-Mamba只具有线性复杂度，它能够处理基于transformer模型无法处理的大遥感图像，并具有全局建模能力。在多种地物的语义分割和变化检测任务上的实验表明，使用简单的模型架构和训练方式，RS-Mamba就能够达到SOTA。

RS-Mamba总体结构

Paper：RS-Mamba for Large Remote Sensing Image Dense Prediction
Code: https://github.com/walking-shadow/Official_Remote_Sensing_Mamba
Arxiv: https://arxiv.org/abs/2404.02668

代码已开源，觉得有帮助的话希望能在github给个star。

欢迎在本文的基础上继续探究基于SSM的方法在遥感密集预测任务中的潜力，RSM目前所使用的都是最简单的架构，还有很大的潜力可以挖掘。

Mamba在各个领域的火热之风很快就会吹到遥感领域，它在遥感领域的潜力想必也会迎来新一轮的研究热潮。

长文重点纯享版

引言

近年来，遥感图像的空间分辨率正在变得越来越高，超高分辨率遥感图像也广泛应用在大量的遥感领域中。

超高分辨率遥感图像具有多个方向的大空间尺度的空间特征，它们对于语义分割、变化检测等密集预测任务来说都至关重要。

在超高分辨率遥感图像中，由于图像的空间分辨率非常高，一方面，单个物体内部存在形状、边缘等的丰富的空间特征，多个物体之间也存在空间排列等丰富的空间特征，这些空间特征往往具有很大的空间尺度；另一方面，由于遥感图像是相机向下俯拍得到的，水平方向上相机可以以任意角度获取遥感图像，这表明遥感图像的空间特征可以存在于任意方向。

因此，能够对超高分辨率遥感图像进行全局建模，提取多个方向的大尺度空间特征，对于超高分辨率遥感中的密集预测任务来说至关重要。

近年来，基于transformer的深度学习模型被广泛应用于超高分辨率遥感任务中。由于transformer能够通过自注意力捕获超高分辨率遥感图像的全局空间信息，并对它们的空间依赖进行良好建模，基于transformer的模型取得了很不错的效果。

然而，由于transformer具有二次方复杂度，在训练和推理基于transformer的模型时，只能将大的超高分辨率遥感图像，裁剪成较小的遥感图像块，然后再送入到基于transformer的模型中进行计算。由于超高分辨率遥感图像的物体存在很大的空间跨度，裁剪后的遥感图像块往往只包含单个物体的一部分，只具有更少的上下文信息，丢失了单个物体内部的空间特征和多个物体之间的空间依赖信息，不利于处理超高分辨率遥感任务，如下图所示。

把大遥感图像裁剪为小的图像块。小图像块包含的上下文信息非常有限，丢失了很多重要的空间特征

最近的工作Vim和VMamba使用SSM实现了线性复杂度和全局感受野，在自然图像上完成图像分类、图像分割等任务。

为了处理图像数据无方向性的特点，Vim在图像的横向方向上使用SSM进行前向和后向选择性扫描，VMamba在横向和纵向方向上使用SSM进行前向和后向选择性扫描，从而使得图像中的每个部分都能和其他部分建立联系。

VMamba中的有效感受野可视化结果表明，它具有全局的有效感受野，并且在横向和纵向方向上具有更强的有效感受野，这表明SSM的选择性扫描方向能够显著影响图像在特定方向的有效感受野。

然而，Vim和VMamba不适用于超高分辨率遥感图像。自然图像的空间特征要符合一定的物理规律，图像中的物体往往是横平竖直的，因此自然图像不能随意旋转，它的主要空间特征分布在横向和纵向两个方向。

遥感图像由于是卫星向下俯视拍摄获取的，因此遥感图像可以任意旋转，它的主要空间特征可以分布在任意方向。由于超高分辨率遥感图像中的物体具有大的空间尺度，单个物体的空间特征和多个物体之间的空间依赖都存在多种多样的方向，因此超高分辨率遥感图像存在多个方向的大尺度空间特征。

由于SSM的选择性扫描方向能够显著影响图像在特定方向上的有效感受野，Vim只在横向上选择性扫描图像，VMamba只在横向和纵向上选择性扫描图像，虽然它们在主要空间特征在横向和纵向的自然图像上能够取得不错的效果，但是它们都无法处理超高分辨率遥感图像中具有多个方向的大尺度空间特征

为了解决上述问题，我们首次将SSM引入超高分辨率遥感任务以实现全局感受野和线性复杂度，提出了Remote Sensing Mamba（RSM）来处理超分辨率遥感图像。

RSM不包含任何自注意力操作，但是具有全局感受野，能够对超高分辨率遥感图像的上下文进行有效建模。由于RSM具有线性复杂度，它能够处理包含了多个物体的大尺度的超高分辨率遥感图像，不会丢失单个物体的空间特征信息和多个物体之间的空间依赖信息，因此可以很好的处理超高分辨率遥感图像。

同时，我们提出了Omnidirectional selective scan module（OSSM），来提取超高分辨率遥感图像中具有大空间尺度和多个方向的空间特征。OSSM同时在横向、纵向、斜向和反斜向使用SSM对遥感图像进行前向和后向选择性扫描，从而能够增强遥感图像在多个方向上的全局有效感受野，在多个方向上提取全局的空间特征。

总的来说，我们的贡献如下：

1）我们提出了Remote Sensing Mamba来处理超高分辨率遥感任务。RSM首次使用SSM来处理超高分辨率遥感图像，它能够处理包含整个物体的超高分辨率遥感图像，并建立起遥感图像的全局联系。

2）我们设计了一个Omnidirectional selective scan module提取超高分辨率遥感图像中具有大空间尺度和多个方向的空间特征。OSSM通过在多个方向上使用SSM对遥感图像进行选择性扫描，能够增强遥感图像在多个方向上的全局联系。

3）我们证明了RSM在超高分辨率遥感任务中的高效性和优越性。在语义分割数据集WHU-SS和变化检测数据集LEVIR-CD，和WHU-CD上的实验表明，RSM在使用简单的模型架构和训练方法的情况下，在语义分割和变化检测任务上均能够达到SOTA。

研究方法

RSM在语义分割和变化检测任务上的对应模型分别为RSM-SS和RSM-CD。RSM-SS使用简单的U-Net架构，RSM-CD使用简单的孪生网络架构，它们都是遥感密集预测任务中非常常用和简单的架构，不包含任何花哨的模块。

RSM-SS和RSM-CD的encoder都由若干全向状态空间块（Omnidirectional state space block, OSS）构成，OSS的内部结构为类Mamba结构，具有线性复杂度和全局建模能力。而其中的OSSM（Omnidirectional selective scan module）在八个方向上对图像进行选择性扫描，从而能够提取多个方向的大尺度空间特征。

RSM-SS和RSM-CD的总体结构

RSM-SS和RSM-CD的创新之处在于OSSM模块，OSSM的扫描方向能够更好的适应遥感图像的空间特征分布在任意方向的特点。

Vim, VMamba和OSSM的选择性扫描方向如下图所示，Vim的选择性扫描方向是图像的横向，即从左到右扫描和从右到左扫描；VMamba的选择性扫描方向是图像的横向和纵向，即从左到右和从右到左，加上从上到下和从下到上扫描。

Vim和VMamba的这种扫描方式能够有效的处理主要空间特征在横向和纵向的自然图像，但是无法处理空间特征分布在任意方向的遥感图像。因此，OSSM在横向和纵向的扫描基础上，增加了斜向和反斜向的扫描，从而能够在斜向和反斜向方向对遥感图像进行全局建模，提取多个方向的空间特征。】sdfdsfdfsd

Vim, VMamba和OSSM的选择性扫描方向

OSSM的具体结构如下。输入的tokens在横向、纵向、斜向、反斜向和它们的反向方向展平成8个图像token序列，并独立的输入到SSM块中进行选择性扫描，所有方向的扫描结果最后加在一起，得到输出的tokens。输出tokens因为汇总了在8个方向上进行选择性扫描的特征，能够在多个方向上对遥感图像进行全局性建模，从而能够提取多个方向的大尺度空间特征。

OSSM的整体结构

实验结果

在语义分割任务上的Massachusetts Roads数据集和变化检测的WHU-CD数据集上的消融实验表明，与Vim的SS1D和VMamba的SS2D相比，进行8个方向扫描的OSSM均能取得更好的效果。

OSSM消融实验

在语义分割任务上，我们在Massachusetts Roads数据集和WHU数据集上进行了实验，结果表明RSM-SS相较于CNN-based方法和transformer-based方法，均能取得最好的效果，在道路和建筑物语义分割上均能取得SOTA效果。

RSM-SS在Massachusetts Roads数据集的对比实验

RSM-SS在WHU数据集的对比实验

在变化检测任务上，我们在WHU-CD数据集和LEVIR-CD数据集上进行了实验，结果表明RSM-CD相较于CNN-based方法和transformer-based方法，也均能取得最好的效果，在建筑物变化检测上取得了SOTA效果。

RSM-CD在WHU-CD数据集的对比实验

RSM-CD在LEVIR-CD数据集的对比实验

后记

关于SSM和Mamba的学习可以参照以下几个回答，它们都是不可多得的好文章。

https://www.zhihu.com/question/644981978/answer/3405813530
https://www.zhihu.com/question/644981909/answer/3401898757

何恺明在MIT授课的课件PPT下载

在CVer公众号后台回复：何恺明，即可下载本课程的所有566页课件PPT！赶紧学起来！

CVPR 2024 论文和代码下载

在CVer公众号后台回复：CVPR2024，即可下载CVPR 2024论文和代码开源的论文合集

Mamba和遥感交流群成立

扫描下方二维码，或者添加微信：CVer5555，即可添加CVer小助手微信，便可申请加入CVer-Mamba和遥感微信交流群。另外其他垂直方向已涵盖：目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。
一定要备注：研究方向+地点+学校/公司+昵称（如Mamba或者遥感+上海+上交+卡卡），根据格式备注，可更快被通过且邀请进群

▲扫码或加微信号: CVer5555，进交流群
CVer计算机视觉（知识星球）来了！想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料，欢迎扫描下方二维码，加入CVer计算机视觉（知识星球），已汇集近万人！

▲扫码加入星球学习

▲点击上方卡片，关注CVer公众号
整理不易，请点赞和在看

Amusi（CVer）

关注

1
点赞
踩
13

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫