文献翻译（Mamba-UNet: UNet-Like Pure Visual Mamba for Medical Image Segmentation）

最新推荐文章于 2025-03-27 10:51:10 发布

来自宇宙的曹先生

最新推荐文章于 2025-03-27 10:51:10 发布

阅读量5.4k

点赞数 34

分类专栏：文献翻译文章标签：人工智能医学图像分割 AI 深度学习

本文链接：https://blog.csdn.net/m0_54187478/article/details/136245914

版权

本文介绍了一种新型的医学图像分割模型MambaUNet，它结合了U-Net的结构和Mamba模型的优势，通过视觉Mamba块改进了长程依赖性的建模。实验结果在ACDCMRI心脏分割数据集上优于UNet和SwinUNet，展现了在复杂医学图像上的优秀性能。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

在这里插入图片描述

摘要

在医学图像分析的最新进展中，卷积神经网络（CNN）和视觉变换器（ViT）已经设定了重要的基准。前者擅长通过卷积运算捕捉局部特征，而后者通过利用自注意机制实现了显著的全局上下文理解。然而，这两种架构在有效地建模医学图像中的长程依赖性方面都存在局限性，这是精确分割的关键方面。受Mamba架构的启发，我们提出了Mamba UNet，这是一种将医学图像分割中的U-Net与Mamba的能力协同的新架构。Mamba UNet采用了纯基于视觉Mamba（VMamba）的编码器-解码器结构，融入了跳跃连接，以保存网络不同规模的空间信息。这种设计有助于全面的特征学习过程，捕捉医学图像中复杂的细节和更广泛的语义上下文。我们在VMamba块中引入了一种新的集成机制，以确保编码器和解码器路径之间的无缝连接和信息流，从而提高分割性能。我们在公开的MRI心脏多结构分割数据集上进行了实验。结果表明，在相同的超参数设置1下，Mamba UNet在医学图像分割方面优于UNet、SwinUNet。源代码和基准实现可在https://github.com/ziyangwang007/Mamba-UNet.

关键词：医学图像分割·卷积·变换器·曼巴·状态空间模型。

设置1：超参数设置包括：损失函数、优化器、训练迭代、批量大小、学习率、相同数据分割等。

1.引言

医学图像分割对于诊断和治疗至关重要，基于深度学习的网络在该领域表现出了主导性能[20]。U-Net是以其对称编码器-解码器风格的架构和跳过连接[24]而闻名的最基本的架构之一，其中各种编码器和解码器提取不同级别的特征信息，并且跳过连接能够实现特征信息的有效转换。大多数研究使用高级网络块技术进一步探索U-Net，如密集连接[12]、残差块[10]、注意力机制[30]、深度卷积[11]和萎缩卷积[33，35]，从而在CT、MRI和超声医学图像分割中产生各种改进的UNet[23，13，15，29，34，36]。
在这里插入图片描述
受自然语言处理的自注意机制成功的启发[26]，ViT首次将纯多头自注意机制用于图像识别任务，具有最先进的性能[5]。这展示了其在建模长期依赖关系方面的强大能力。移位窗口等技术进一步定制了ViT，产生了SwinTransformer[18]，增强了其在计算机视觉中密集预测任务中的适用性，如图像分割和检测[19，31，17]。在医学图像分割中，受传统CNN设计的启发，ViT与U-Net架构的集成也产生了各种混合和纯基于ViT的U-Net。例如，TransUNet是第一个在UNet[4]的编码器中利用ViT的特征学习能力的工作。UNETR将ViT与UNet相结合用于3D分割[9]，而Swin UNet和DCSUnet进一步探索了具有基于U-Net结构的纯Swin Vision Transformer网络块[3，28]。

虽然Transformers擅长捕捉长程依赖关系，但由于自注意机制与输入大小的二次缩放，其高计算成本带来了挑战，尤其是对于高分辨率生物医学图像[32，21]。状态空间模型（SSM）[6，22，27]，特别是结构化SSM（S4）[8]的最新发展，以其在处理长序列方面的高效性能提供了一种有前途的解决方案。Mamba模型通过选择性机制和硬件优化增强了S4，在密集数据域中显示出卓越的性能[7]。在视觉状态空间模型（VMamba）中引入交叉扫描模块（CSM），通过实现空间域的遍历并将非因果视觉图像转换为有序的补丁序列，进一步增强了Mamba对计算机视觉任务的适用性[16]。受这些功能的启发，我们建议在U-Net架构中利用Visual Mamba块（VSS）来改进医学图像分析中的长期依赖性建模，从而产生Mamba UNet。U-Net与各种网络块的演变以及我们提出的Mamba UNet的定位如图1所示。

在这里插入图片描述