[Mamba_3]Swin-UMamba

最新推荐文章于 2024-10-11 12:58:51 发布

努力站桩的奶酪i

最新推荐文章于 2024-10-11 12:58:51 发布

阅读量829

点赞数 25

文章标签：深度学习人工智能

本文链接：https://blog.csdn.net/qq_54412311/article/details/141940697

版权

题目：Swin-UMamba: Mamba-based UNet with ImageNet-based pretraining

中文题目：Swin-UMamba: 基于mamba的UNet与基于imagenet的预训练

贡献：

据我们所知，我们是第一个尝试发现基于曼巴的预训练网络在医学图像分割中的影响。我们的实验验证了基于imagenet的预训练在基于mamba网络的医学图像分割中发挥了重要作用，有时这是至关重要的。
我们提出了一种新的基于mamba的医学图像分割网络swin - umamba，它是专门为统一预训练模型的力量而设计的。此外，我们提出了一种变体结构SwinUMamba†，它具有更少的网络参数和更低的FLOPs，同时保持竞争性能。
我们的研究结果表明，swin - umamba和swin - umamba†都可以显著优于之前的分割模型，包括cnn、ViTs和最新的基于mamba的模型，突出了基于imagenet的预训练和提出的架构在医学图像分割任务中的有效性。

摘要

准确的医学图像分割需要融合多尺度信息，从局部特征到全局依赖关系。然而，卷积神经网络(cnn)受局部感受野的限制，视觉变换(vit)的注意机制具有较高的二次复杂度，这对现有的远程全局信息建模方法提出了挑战。近年来，基于曼巴的模型以其令人印象深刻的长序列建模能力而受到广泛关注。一些研究表明，这些模型可以在各种任务中优于流行的视觉模型，提供更高的准确性，更低的内存消耗和更少的计算负担。然而，现有的基于mamba的模型大多是从头开始训练，没有探索预训练的力量，预训练已被证明对数据高效的医学图像分析非常有效。本文介绍了一种新的基于mamba的模型Swin-UMamba，它利用基于imagenet的预训练的优势，专门为医学图像分割任务而设计。我们的实验结果揭示了基于imagenet的训练在提高基于mamba的模型的性能方面的重要作用。与cnn、ViTs和最新的基于mamba的模型相比，Swin-UMamba表现出了巨大的优势。值得注意的是，在AbdomenMRI, Encoscopy, and Microscopy数据集上，Swin-UMamba平均得分比最接近的U-Mamba_Enc高出2.72%。SwinUMamba的代码和模型可https://github.com/JiarunLiu/Swin-UMamba上公开获取。

1介绍

医学图像分割在现代临床实践中发挥着辅助诊断、制定治疗方案、实施治疗等重要作用[1,2,3]。典型的分割过程依赖于经验丰富的医生，这既费时又费力。此外，由于主观解释和观察者之间的可变性，专家之间的分割一致性可能会有所不同[4,5]。这凸显了对自动分割方法的需求，以提高医学图像分析的效率、准确性和一致性，从而做出准确、快速的诊断[6,7]。

近年来，深度学习在医学图像分割领域取得了重大进展[8,9,10,11]。然而，准确的医学图像分割需要将局部特征与其对应的全局依赖项相结合[12]。从图像数据中有效地捕获复杂的、长期的全局依赖关系仍然是一个挑战。卷积神经网络(cnn)和视觉变换(ViTs)这两种流行的方法在远程依赖关系建模中都有自己的局限性。在医学图像分割中常用的cnn有SegResNet[13]、U-Net[8]、nnU-Net[11]等。它们在提取局部特征方面是有效的，但在捕获全局上下文和长期依赖关系方面可能会遇到困难。这是因为cnn本身受限于其局部接受域[14]，这限制了其从图像中遥远区域捕获信息的能力。另一方面，ViTs已经显示出处理全局上下文和远程依赖关系的能力[15,16]。然而，ViTs受到其注意机制的限制，长序列建模具有高二次复杂度[17]，而高分辨率图像在医学领域并不罕见(例如:whole-slide pathology images [18], high-resolution MRI/CT scans [19]))。尽管很复杂，但在处理有限的数据集时，变压器容易过度拟合[20]，这表明它们需要大量数据。

最近，结构化状态空间序列模型(SSMs)[21,22]在长序列建模中显示了其效率和有效性，有可能成为视觉任务中远程依赖建模的解决方案。与变压器相比，它们随序列长度线性或近线性扩展，同时保持了远程依赖关系建模的能力，在自然语言处理和基因组分析等连续长序列数据分析方面具有领先的性能[17]。最近几项研究初步探讨了曼巴在视觉领域的有效性[23,24,25,26,27]。例如，Vim[26]提出了一种带有双向曼巴块的通用视觉主干。相比之下，VMamba[24]建立了一个基于mamba的视觉主干，具有分层表示。此外，vamba还引入了一个交叉扫描模块，以解决由于1D序列和2D图像之间的差异而导致的方向敏感问题。对于医学图像分割，U-Mamba[23]和SegMamba[25]分别提出了基于nnUNet和swin - unet的Mamba块的特定任务架构。这些模型在各种视觉任务中取得了令人满意的结果，证明了ssm在视觉方面的潜力很大。

然而，现有的基于mamba的模型大多是从零开始训练的。基于mamba模型的预训练在医学图像分割任务中的影响尚不清楚，它已被证明对cnn[10]和ViTs[28]的数据高效医学图像分析非常有效。这在医学领域尤其重要，因为医学图像数据集的大小和多样性往往有限[29,30]。了解基于mamba的预训练模型在医学图像分割中的有效性，可以为提高深度学习模型在医学成像应用中的性能提供有价值的见解。

有几个挑战需要解决。首先，现有的基于mambaba的医学图像分割模型没有考虑到ImageNet预训练模型的可移植性。因此，网络结构需要重新设计以整合预训练模型。鉴于曼巴块在视觉领域的应用相对较新，医学图像分割任务需要进一步的实验评估。第三，需要基于mamba的模型在实际部署中的可扩展性和效率[31]，特别是在资源受限的环境中，这在医疗实践中很常见。

本文提出了一种基于mamba的二维医学图像分割网络swin - umamba。swin - umamba使用通用编码器将预训练视觉模型的功能与设计良好的解码器集成在一起，用于医学图像分割任务。此外，我们提出了一种基于mamba解码器的变体结构SwinUMamba†，为