RSMamba:基于状态空间模型的遥感图像分类

RSMamba:基于状态空间模型的遥感图像分类


RSMamba: Remote Sensing Image Classificatiofi with State Space Model

摘要

遥感图像分类构成了各种理解任务的基础,在遥感图像解释中起到了至关重要的作用。

卷积神经网络(CNNs)和Transformers的最新进展显著提高了分类的准确度。

然而,遥感场景分类依然是一个重大挑战,特别是考虑到遥感场景的复杂性和多样性以及时空分辨率的变化。

全图像理解能力可以为场景识别提供更精确的语义线索。

在本文中,作者介绍了RSMamba,一种新型的遥感图像分类架构。RSMamba基于状态空间模型(SSM),并融入了一种高效、硬件感知的设计,称为Mamba。

它结合了全局感受野和线性建模复杂度的优点。为了克服原始Mamba的限制,即只能建模因果序列,不适用于二维图像数据,作者提出了一种动态多路径激活机制,以增强Mamba对非因果数据建模的能力。

值得注意的是,RSMamba保持了原始Mamba的内在建模机制,同时在多个遥感图像分类数据集上展现出卓越的性能。这表明RSMamba具有成为未来视觉基础模型 Backbone 的巨大潜力。

代码将在https://github.com/KyanChen/RSMamba提供。

Introduction

遥感技术的进步大大提高了人们对高分辨率地球观测的兴趣。作为遥感图像智能解释的基础,遥感图像分类对于后续下游任务至关重要。它在土地测绘、土地利用和城市规划等应用中发挥着关键作用。然而,遥感场景的复杂性和多样性,以及可变的时空分辨率,给自动化遥感图像分类带来了重大挑战。

研究行人一直努力工作以减轻这些挑战,并在各种不同的应用场景中提高模型的适用性。早期的方法论主要关注特征构建、提取和选择,研究了以SIFT、LBP、颜色直方图、GIST、BoVW 等为代表的特征工程机器学习方法。近年来,深度学习的出现彻底改变了以往过分依赖专业人类先验知识的传统范式。深度学习能够自主地从数据中挖掘有效的特征,并以端到端的方式输出分类概率。

在网络架构方面,它主要可以分为卷积神经网络(CNNs)和注意力网络。前者通过二维卷积操作逐层抽象图像特征,如ResNet 所示。

后者通过注意力机制捕捉整个图像局部区域之间的长距离依赖关系,从而实现更鲁棒的语义响应,如ViT 、SwinTransformer 等所示。在遥感图像分类方面也取得了实质性进展。例如,ET-GSNet 将ViT的丰富语义先验知识融入到ResNet18中,充分利用了两者的优势。P2Net 引入了一种异步对比学习方法,以解决细粒度分类中类间差异小的问题。

在一定程度上,分类准确性严重依赖于模型有效处理复杂多样的遥感场景影响以及可变时空分辨率的能力。Transformer 基于注意力机制,能够从整个图像中有价值的区域获取响应,为这些挑战提供了最优解。然而,其注意力的计算具有平方复杂度,随着输入序列长度的增加或网络的加深,在建模效率和内存使用方面带来了重大挑战。
状态空间模型(SSM)可以通过状态转换建立长距离依赖关系,并通过卷积计算执行这些转换,从而实现近线性的复杂度。Mamba 通过将时变参数引入普通SSM并开展硬件优化,使得训练和推理都极为高效。Vim 和 V Mamba 成功将Mamba引入到二维视觉领域,在多个任务上实现了性能和效率的令人称赞的平衡。

在本文中,作者介绍了RSMamba,这是一种用于遥感图像分类的高效状态空间模型。由于其在一个完整图像内建模全局关系的强大能力,RSMamba也可能在广泛的其他任务中展现出潜在的多功能性。RSMamba基于先前的Mamba,但引入了动态多路径激活机制来缓解普通Mamba的局限性,后者只能单向建模且对位置不敏感。值得注意的是,RSMamba被设计为保留原始Mamba块的内在建模机制,同时在块外部引入非因果性和位置增强的改进。具体来说,遥感图像被分割成重叠的斑块标记,并加上位置编码形成一个序列。作者构建了三条路径副本,分别为前向、反向和随机。这些序列通过使用共享参数的Mamba块建模以融入全局关系,并通过不同路径的线性映射进行后续激活。鉴于Mamba块的效率,RSMamba的大规模预训练可以以低成本实现。

本文的主要贡献可以概括如下:
作者提出了 RSMamba,这是一种基于状态空间模型(SSM)的高效全局特征建模方法,用于遥感图像。

  1. 这种方法在表征能力和效率方面具有显著优势,预计将成为处理大规模遥感图像解释的一个可行解决方案。

  2. 特别地,作者引入了一种位置敏感的动态多路径激活机制,以解决原始Mamba的限制,它仅限于建模因果序列,并对空间位置不敏感。

  3. 作者在三个不同的遥感图像分类数据集上进行了全面的实验。结果表明,RSMamba相较于基于卷积神经网络(CNNs)和 Transformer (Transformers)的分类方法具有显著优势。

Methodology

利用SSM模型的固有特性,RSMamba擅长有效地捕捉遥感图像中的全局依赖关系,从而产生丰富的语义类别信息。本节将首先介绍SSM的基础知识,然后概述RSMamba。随后,作者将深入探讨动态多路径激活块。最后,作者将详细说明三种不同版本的RSMamba的网络结构。

Preliminaries

状态空间模型(SSM)是从现代控制理论的线性时不变系统中衍生出的概念,它将连续的刺激 ( r \in \mathbb{R}^N ) 映射到响应 ( y \in \mathbb{R}^N )。这个过程可以通过以下线性常微分方程(ODE)来表述:

d h ( t ) d t = A h ( t ) + B a ( t ) g ( t ) = C h ( t ) \frac{dh(t)}{dt} = Ah(t) + Ba(t) \\ g(t) = Ch(t) dtdh(t)=Ah(t)+Ba(t)g(t)=Ch(t)

其中 ( y \in \mathbb{R} ) 是由输入信号 ( a \in \mathbb{R}^N ) 和隐藏状态 ( h \in \mathbb{R}^N ) 导出的。( A \in \mathbb{R}^{N \times N} ) 表示状态转移矩阵。( B \in \mathbb{R}^N ) 和 ( C \in \mathbb{R}^N ) 是投影矩阵。

为了将方程1中描述的连续系统以离散形式实现并将其整合到深度学习方法中,( A ) 和 ( B ) 使用零阶保持(ZOH)以时间尺度参数 ( \Delta ) 进行离散化。这个过程如下所示:

A = e A Δ B = ( A Δ ) − 1 ( e A Δ − I ) ⋅ A B A = e^{A\Delta} \\ B = (A\Delta)^{-1}(e^{A\Delta}-I) \cdot AB A=eAΔB=(AΔ)1(eAΔI)AB

在离散化之后,方程式1可以重写为:

h k = A h k − 1 + B w k g k = C h k h_k = Ah_{k-1} + Bw_k \\ g_k = Ch_k hk=Ahk1+Bwkgk=Chk

其中 ( C ) 代表 ( C )。最后,输出可以用卷积表示进行计算,如下所示:

y = x ∗ R y = x * R y=xR

RSMamba

RSMamba将2-D图像转换为1-D序列,并使用多路径SSM编码器捕捉长距离依赖关系,如图1所示。给定一个图像 ,作者采用一个 Kernel 为,步长为的2-D卷积将局部图像块映射到像素级的特征嵌入。随后,将特征图展平成一个1-D序列。为了保持图像内相对空间位置关系,作者融入位置编码。整个流程如下,
在这里插入图片描述
Dynamic Multi-path Activation
Mamba基本模型被用于一维序列的因果建模。在建模空间位置关系和单向路径时遇到困难,这限制了它在视觉数据表示中的适用性。为了增强其处理二维数据的能力,作者引入了一种动态多路径激活机制。

重要的是,为了保持基本Mamba模块的结构,该机制只在模块的输入和输出上操作。

具体来说,作者将输入序列复制三份以建立三条不同的路径,即前向路径、反向路径和随机Shuffle路径,并利用具有共享参数的普通Mamba混合器分别对这三条序列中的标记之间的依赖关系进行建模。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值