CM-UNet: Hybrid CNN-Mamba UNet for Remote Sensing Image Semantic Segmentation

最新推荐文章于 2025-04-10 11:22:07 发布

小飒要学习

最新推荐文章于 2025-04-10 11:22:07 发布

阅读量3.7k

点赞数 11

文章标签：人工智能图像处理

本文链接：https://blog.csdn.net/qq_44750091/article/details/140076815

版权

论文：CM-UNet: Hybrid ：CNN-Mamba UNet for Remote Sensing Image Semantic Segmentation
代码：https://github.com/XiaoBuL/CM-UNet

Abstrcat:

由于大规模图像尺寸和对象变化，当前基于 CNN 和 Transformer 的遥感图像语义分割方法对于捕获远程依赖性不是最佳的，或者受限于复杂的计算复杂性。在本文中，我们提出了 CM-UNet，包括用于提取局部图像特征的基于 CNN 的编码器和用于聚合和集成全局信息的基于 Mamba 的解码器，促进遥感图像的高效语义分割。具体来说，引入 CSMamba 块来构建核心分割解码器，该解码器采用通道和空间注意力作为 vanilla Mamba 的门激活条件，以增强特征交互和全局局部信息融合。此外，为了进一步细化 CNN 编码器的输出特征，采用多尺度注意力聚合（MSAA）模块来合并不同尺度的特征。通过集成CSMamba模块和MSAA模块，CM-UNet有效捕获大规模遥感图像的长距离依赖关系和多尺度全局上下文信息。在三个基准上获得的实验结果表明，所提出的 CM-UNet 在各种性能指标上都优于现有方法。

Introduction

在本文中，我们提出了 CM-UNet，一种用于 RS(遥感) 图像语义分割的新颖框架。 CM-UNet 利用 Mamba 架构聚合来自 CNN 编码器的多尺度信息。它由一个 U 形网络和一个解码器组成，其中的 CNN 编码器提取多尺度文本信息，解码器采用设计的 CSMamba 块，可实现高效的语义信息聚合。 CSMamba 模块利用 Mamba 模块以线性时间复杂度捕获长程依赖性，并采用通道和空间注意力进行特征选择。CSMamba 块作为之前的自注意力转换器块的替代方案，提高了 RS 语义分割的效率。此外，引入了多尺度注意力聚合（MSAA）模块来集成来自 CNN 编码器不同级别的特征，通过跳过连接帮助 CSMamba 解码器。最后，CM-UNet 在各个解码器级别结合了多输出监督，以逐步生成 RS 图像的语义分割。贡献总结如下：
1）我们提出了一个名为 CM-UNet 的基于 mamba 的框架，以有效地集成局部全局信息以进行 RS 图像语义分割。
2）我们设计了一个 CSMamba 块，将通道和空间注意力信息包含到 mamba 块中以提取全局上下文信息。此外，我们采用多尺度注意力聚合模块来辅助跳跃连接和多输出损失来逐步监督语义分割。
3）在三个著名的公开RS数据集（ISPRS Potsdam、ISPRS Vaihingen和LoveDA）上进行的广泛实验表明了所提出的CM-UNet的优越性。

Methodology

我们的 CM-UNet 框架如图 2 (a) 所示，包含三个核心组件：基于 CNN 的编码器、MSAA 模块和基于 CSMamba 的解码器。编码器采用 ResNet 提取多级特征，而 MSAA 模块融合这些特征，取代 UNet 的普通跳过连接并增强解码器的能力。在 CSMamba 解码器中，CSMamba 块的组装聚合了本地文本特征以建立全面的语义理解。
在这里插入图片描述