论文阅读笔记:ChangeMamba: Remote Sensing Change Detection With Spatiotemporal State Space Model

ChangeMamba: Remote Sensing Change Detection With Spatiotemporal State Space Model
H. Chen, J. Song, C. Han, J. Xia and N. Yokoya, "ChangeMamba


原始论文
原始代码

引言

遥感影像变化检测(CD)是遥感领域的一个重要任务,旨在从不同时相的遥感影像中检测地表物体的变化。随着卷积神经网络(CNN)和Transformer在该领域的应用,取得了显著的进展。然而,CNN受限于有限的感受野,难以捕捉更广泛的时空上下文信息,而Transformer虽然能够建模全局上下文,但计算复杂度高,难以在大规模数据集上高效训练和部署。本文首次将基于状态空间模型(SSM)的Mamba架构应用于遥感CD任务,提出了三种网络框架MambaBCD、MambaSCD和MambaBDA,分别用于二元变化检测(BCD)、语义变化检测(SCD)和建筑损坏评估(BDA)。这些框架充分利用了Mamba架构的全局空间上下文学习能力和时空关系建模能力,在五个基准数据集上的实验结果表明,所提出的方法在性能上优于现有的CNN和Transformer方法。

背景知识

遥感影像变化检测任务

遥感影像变化检测任务可以根据所需结果分为三类:

  1. 二元变化检测(BCD):关注“哪里”发生了变化,输出二元变化图。
  2. 语义变化检测(SCD):不仅关注“哪里”发生了变化,还关注“什么”发生了变化,输出语义变化信息。
  3. 建筑损坏评估(BDA):一种特殊的SCD任务,需要识别建筑的损坏程度。

这些任务在土地覆盖变化分析、城市扩张研究、灾害响应、地理信息系统(GIS)更新和生态监测等领域发挥着重要作用。

现有方法的局限性

  • CNN方法:虽然能够自动提取层次化特征,但受限于有限的感受野,难以捕捉像素间的长距离依赖关系,尤其在处理复杂多样的多时相场景时表现不佳。
  • Transformer方法:通过堆叠自注意力模块,能够充分建模整个图像中所有像素间的关系,但自注意力操作的计算复杂度随图像尺寸呈二次增长,导致计算开销巨大,难以在大规模遥感数据集上高效应用。

Mamba架构的优势

Mamba架构基于SSM,通过选择机制允许模型以输入依赖的方式选择相关信息。与Transformer相比,Mamba在保持非局部建模能力的同时,计算开销呈线性增长,为高效准确的CD提供了可能性。

研究方法

Mamba架构

Mamba架构的核心思想是通过状态空间模型(SSM)来处理序列数据。SSM通过隐藏状态来建模输入序列和输出序列之间的关系,具有线性扩展的序列长度属性。Mamba进一步引入选择机制,允许模型过滤无关信息并回忆相关信息,从而在长序列数据上取得优异性能。

ChangeMamba框架

本文提出的ChangeMamba框架包括三种网络架构:MambaBCD、MambaSCD和MambaBDA,分别针对BCD、SCD和BDA任务。所有框架均采用Visual Mamba(VMamba)架构作为编码器,能够充分学习输入图像的全局空间上下文信息。对于变化解码器,提出了三种时空关系建模机制,以充分利用Mamba架构的属性,实现多时相特征的时空交互,从而获得准确的变化信息。

时空关系建模机制

  1. 时空序列建模:将两个时相的数据展开并按时间顺序排列。
  2. 时空交叉建模:交叉排列两个时相的数据。
  3. 时空并行建模:将两个时相的数据在通道维度上拼接后进行联合建模。

这三种机制能够充分挖掘多时相特征中的时空关系,帮助变化解码器获得准确的CD结果。

网络架构

编码器

基于VMamba架构的编码器通过交叉扫描机制(cross-scan mechanism)在不同空间方向上展开图像块,从而有效建模图像的全局上下文信息。编码器包含四个阶段,每个阶段首先对输入数据进行下采样,然后通过多个视觉状态空间(VSS)块充分建模空间上下文信息,并输出该阶段的特征。

解码器

  • 变化解码器:基于提出的三种时空学习机制,充分学习多时相特征的时空关系,输出二元变化图。
  • 语义解码器:负责从编码器提取的多级特征中逐步恢复地表覆盖图。

损失函数

  • BCD任务:使用交叉熵损失和Lovasz-softmax损失来优化网络。
  • SCD任务:除了优化BCD任务外,还需优化前后事件图像的地表覆盖映射任务。
  • BDA任务:包含建筑定位任务和损坏分类任务,分别使用交叉熵损失和Lovasz-softmax损失。

实验

数据集

本文在五个基准数据集上进行了实验,包括SYSU-CD、LEVIR-CD+、WHU-CD、SECOND和xBD数据集。这些数据集涵盖了不同的变化场景和任务类型,如城市和沿海变化、建筑建设变化、地理变化和灾害响应等。

实验设置

  • 实现细节:所有提出的架构均在Pytorch中实现,包括Tiny、Small和Base版本。训练使用AdamW优化器,学习率为1e-4,权重衰减为5e-3,批量大小为16。
  • 评估指标:对于BCD任务,使用召回率、精确率、总体准确率、F1分数、IoU和Kappa系数进行评估;对于SCD任务,使用总体准确率、F1分数、平均IoU和分离KC进行评估;对于BDA任务,使用F1分数评估建筑定位和损坏分类任务。

比较方法

本文选择了多种基于CNN和Transformer的代表性方法进行比较,包括FC-EF、FC-Siam-Diff、SiamCRNN、SNUNet、ChangeFormer、BIT、TransUNetCD等。

实验结果

BCD任务

MambaBCD在SYSU-CD、LEVIR-CD+和WHU-CD数据集上的性能均优于CNN和Transformer方法。例如,在SYSU数据集上,MambaBCD-Base在OA、F1、IoU和KC指标上均取得了最高值。

SCD任务

MambaSCD在SECOND数据集上的性能超过了现有的Transformer方法ScanNet,在所有四个评估指标上均取得了最高值。

BDA任务

MambaBDA在xBD数据集上的性能显著优于现有的BDA方法,与当前的Transformer方法DamFormer相比,Foverall 1指标分别提高了2.64%、4.12%和4.39%。

不同时空建模方法的比较

本文提出的基于Mamba架构的时空建模方法在BCD、SCD和BDA任务上均优于现有的时空关系建模方法,如基于FPN的拼接操作、基于3D卷积的TST方法、基于RNN的方法和基于Transformer的方法。

与其他骨干网络的比较

Mamba架构在SYSU数据集上的表现优于Swin-Transformer和MixFormer等Transformer骨干网络,因为Mamba能够以线性复杂度充分学习全局上下文信息,而无需采用局部注意力机制或降低特征图尺寸的方法。

GPU内存占用

MambaBCD架构在不同输入尺寸下的GPU内存占用与先进CNN架构相当,但显著低于基于Transformer的架构,如ChangeFormerV5。

对降质输入数据的鲁棒性

MambaBCD在面对高斯模糊、高斯噪声和尺度变化等降质输入数据时表现出良好的鲁棒性,F1分数下降幅度显著小于CNN和Transformer方法。

结论

本文首次将Mamba架构应用于遥感影像变化检测任务,提出了三种网络框架MambaBCD、MambaSCD和MambaBDA,分别用于BCD、SCD和BDA任务。这些框架充分利用了Mamba架构的全局上下文学习能力和时空关系建模能力,在五个基准数据集上的实验结果表明,所提出的方法在性能上优于现有的CNN和Transformer方法。未来的工作将包括开发更适合遥感数据特点的Mamba架构,将其应用于多模态和时间序列遥感任务,并探索Mamba在遥感基础模型中的潜力。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值