RSMamba:性能SOTA的遥感图像分类Mamba,已开源

关注公众号,发现CV技术之美

本文为粉丝投稿。

本文将为大家介绍“RSMamba: Remote Sensing Image Classification with State Space Model”(基于状态空间模型的遥感图像分类),性能SOTA,代码已开源。

72a723523fa6a7c770538e6e83160e55.png

  • Title:

    RSMamba: Remote Sensing Image Classification with State Space Model

  • Paper: 

    https://arxiv.org/abs/2403.19654

  • Code: 

    https://github.com/KyanChen/RSMamba

01

/导读/

遥感图像分类是各种遥感理解任务的基础,卷积神经网络(CNNs)和Transformers的最新进展显著提高了分类精度。然而,遥感场景分类仍然是一个重大挑战,特别是考虑到遥感场景的复杂性和多样性以及时空分辨率的可变性。全图像的理解能力可以为场景区分提供更精确的语义线索。本文介绍了RSMamba,这是一种新颖的遥感图像分类架构。RSMamba基于状态空间模型(SSM),并采用高效、硬件感知设计的Mamba实现,它整合了全局感受野和线性复杂度建模的优点。为了缓解原始Mamba只能建模因果序列,不能适应二维图像数据的缺点,文中提出了一种动态多路径激活机制来增强Mamba处理非因果数据的能力。值得注意的是,RSMamba保持了原始Mamba的内在建模机制,但仍在多个遥感图像分类数据集上表现出优越的性能。

02

/引言/

遥感场景的复杂性和多样性,加上时空分辨率的变化,给自动遥感图像分类带来了重大挑战。深度学习具有自主从数据中挖掘有效特征并以端到端的方式输出分类概率的能力。在网络架构方面,主要可以分为CNNs和注意力网络。前者通过二维卷积操作逐层抽象图像特征。后者通过注意力机制捕获整个图像局部区域之间的长距离依赖性,从而实现更强大的语义响应。一定程度上,遥感图像分类精度严重依赖模型具备处理复杂多样的遥感场景和变化的时空分辨率影响的能力。基于注意力机制的Transformer能够从整个图像的有价值区域获取响应,为这些挑战提供了最佳解决方案。然而,随着输入序列长度的增加或网络的加深,其注意力计算的平方复杂性在建模效率和内存使用方面带来了重大挑战。状态空间模型(SSM)可以通过状态转换建立长距离依赖关系,并通过卷积计算执行这些转换,从而实现近线性复杂性。Mamba通过将时变参数引入到简单的SSM中并进行硬件优化,对训练和推理都非常高效。Vim和VMamba已经成功地将Mamba引入到二维视觉领域,在多个任务中实现了性能和效率的良好平衡。

本文介绍了RSMamba,一种用于遥感图像分类的高效状态空间模型。RSMamba基于Mamba实现,但引入了动态多路径激活机制,以缓解Mamba只能在单一方向上建模,且对位置不敏感的限制。值得注意的是,RSMamba被设计为保留原始Mamba块的内在建模机制,只在块外引入非因果和位置敏感的改进。具体来说,图像被划分为重叠的补丁令牌,添加位置编码形成序列。并构造了三个路径副本,即前向、反向和随机。这些序列通过使用共享参数的Mamba块建模以包含全局关系,然后通过不同路径的线性映射进行激活。

本文的主要贡献可以总结如下:

i) 提出了RSMamba,一种基于状态空间模型(SSM)的高效全局特征建模方法用于遥感图像分类。该方法在表征能力和效率方面具有显著优势,可以作为处理大规模遥感图像解释的可行解决方案。

ii) 具体来说,引入了一个位置敏感的动态多路径激活机制,以缓解原始Mamba仅限于建模因果序列,并对空间位置不敏感的限制。

iii) 在三个不同的遥感图像分类数据集进行了全面的实验,结果表明,RSMamba比其他基于CNN和Transformers的分类方法表现出显著优势。

03

/方法/

State Space Model

状态方程:

87466fc8985e0fcee3e8c856b417b05c.png

离散化:

10db518261b7a96279279719173c249d.png

bb92cdad0f0fa863fdb9ed1ce0b450a8.png

bf7ad4218952ee083cfb34c3ec6261c1.png

RSMamba

a6cd6e0fa9f387aa14411e789eb9d862.png

RSMamba将2-D图像转化为1-D序列,并使用多路径SSM编码器捕获长距离依赖关系,如图所示。给定一幅图像,使用一个二维卷积核将局部区域映射到像素级的特征嵌入。随后,特征图被展平成1-D序列。为了保留图像内部的相对空间位置关系,引入位置编码,整个过程如下,

e8e3ddacd17c7dacc70762833edfb7ab.png

RSMamba并未像ViT那样使用[CLS]标记来聚合全局表示。相反,该一维序列被输入到多个动态多路径激活的Mamba块中,用于建模长距离依赖关系。随后,通过对序列平均池化得到类别预测所需的密集特征。这个过程可以迭代地描述如下,

af385fdc5b9226f23af95ec94798cc59.png

Dynamic Multi-path Activation

原始的Mamba用于对1-D序列进行因果建模,为了增强其对2-D数据的处理能力,引入了一个动态多路径激活机制。重要的是,这种机制为了保留原始Mamba块的结构,仅在块的输入和输出上操作。具体来说,复制了三份输入序列,建立了三个不同的路径,即前向路径、反向路径和随机路径,并利用一个参数共享的普通Mamba混合器分别对这三个序列中的标记之间的依赖关系进行建模。随后,我们将序列中的所有标记恢复到正确的顺序,并使用一个线性层来压缩序列信息,从而建立了三个路径的门控。然后,这个门被用来激活三种不同信息流的表示,如上图所示。第i个块的过程如下所述,

4edc7a3092f4f2546a0239e4ef38dbab.png

Model Architecture

17af1213e2d1312aec9072bd02b79289.png

04

/实验/

为了评估所提出方法的效果,在三个不同的遥感数据集上进行了广泛的实验:UC Merced土地利用数据集(UC Merced),AID,和NWPU-RESISC45数据集(RESISC45)。每个数据集都包含不同的地物类别和图像数量。

ef36a489aae500b04c76bb6b0b0c7905.png

05

/结论/

本文引入了一种新的状态空间模型用于遥感图像分类,称为RSMamba。RSMamba同时利用了CNN和Transformer的优点,特别是它们的线性复杂性和全局感受野。RSMamba引入了一个动态多路径激活机制,以减轻原始Mamba中固有的单向建模和位置不敏感的限制。RSMamba保持了Mamba的内部结构,并提供了灵活性,可以轻松扩展参数以适应各种应用场景。在三个不同的遥感图像分类数据集上进行的实验评估表明,RSMamba可以超越基于CNN和Transformer的其他最先进的分类方法,具有作为下一代视觉基础模型的主干网络的巨大潜力。

56e95d6654688fffff5c223d8209fd7d.jpeg

END

欢迎加入「遥感交流群👇备注:遥感

581647496fe94e0f879117a2d01ecf3a.png

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
AlexNet是一种卷积神经网络模型,是在2012年ImageNet比赛中取得了显著成就的SOTA(State-of-the-art)模型。在猫狗分类任务中,AlexNet也被广泛应用,并取得了很好的效果。 AlexNet模型由5个卷积层、3个全连接层和最后的softmax层组成。在前面的卷积层中,使用了较大的卷积核和步幅,以增加感受野的大小,同时使用了ReLU激活函数来引入非线性。此外,AlexNet还采用了两个GPU进行训练,以提高训练速度。这些创新使得AlexNet在分类任务中取得了非常好的效果。 在猫狗分类任务中,AlexNet模型能够有效地对图像进行特征提取和分类。首先,AlexNet通过卷积层从输入图像中提取出局部特征,如边缘和纹理等。然后,通过池化层对特征进行下采样,从而减少特征的维度和模型的复杂度。最后,通过全连接层将提取到的特征进行分类,并输出分类结果。 AlexNet在猫狗分类任务中表现出了很好的性能。通过在大规模数据集上的训练,AlexNet能够学习到更加鲁棒和泛化性强的特征表示,使得在新的图像上进行分类时能够取得较高的准确率。此外,AlexNet的创新设计和训练策略也为后续的深度学习模型的发展奠定了基础。 总而言之,AlexNet是一种在猫狗分类任务中取得了SOTA成果的卷积神经网络模型。它通过深层网络的设计和训练方法,能够有效地从图像中提取特征,并实现准确的分类。AlexNet的成功不仅在猫狗分类任务中有所体现,同时也对深度学习的发展产生了深远影响。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值