首次探索纯粹基于SSM的模型在医学图像分割中的潜在应用。
在医学图像分割领域,基于CNN和Transformer的模型都已经被广泛研究。然而,CNN在长距离建模能力上存在局限,而Transformer则受到其二次计算复杂度的制约。最近,以Mamba为代表的态空间模型(SSMs)成为了一种有前景的方法。它们不仅在建模长距离交互方面表现出色,同时保持了线性计算复杂度。
在本文中,利用态空间模型,作者提出了一个U形架构模型,用于医学图像分割,命名为Vision Mamba UNet(VM-UNet)。具体来说,引入了视觉态空间(VSS)块作为基础块以捕捉广泛的上下文信息,并构建了一个非对称的编码器-解码器结构。作者在ISIC17、ISIC18和Synapse数据集上进行了全面的实验,结果表明VM-UNet在医学图像分割任务中表现出竞争力。据作者所知,这是第一个基于纯SSM模型的医学图像分割模型。作者旨在建立 Baseline ,并为未来开发更高效、有效的SSM-based分割系统提供宝贵的洞见。
代码:https://github.com/JCruan519/VM-UNet
1 Introduction
自动化医学图像分割技术帮助医生更快地进行病理诊断,从而提高了患者护理的效率。近来,基于CNN和基于Transformer的模型在各种视觉任务中展示了卓越的性能,特别是在医学图像分割方面。UNet作为基于CNN模型的代表,以其结构简单和强大的可扩展性而闻名,后续许多改进都是基于这种U形架构。
TransUnet,作为基于Transformer模型的先驱,首次在编码阶段采用视觉Transformer(ViT)[13]进行特征提取,并在解码阶段使用CNN,展示了其在获取全局信息方面的显著能力。随后,TransFuse融合了ViT与CNN的并行架构,同时捕捉局部和全局特征。此外,Swin-UNet将Swin Transformer与U形架构结合,首次引入了一个纯粹的基于Transformer的U形模型。
然而,基于卷积神经网络(CNN)的模型和基于Transformer的模型都具有固有的局限性。基于CNN的模型受到局部感受野的限制,这大大阻碍了它们捕捉远程信息的能力。这通常会导致提取的特征不充分,从而影响分割效果不佳。尽管基于Transformer的模型在全局建模方面表现出色,但自注意力机制在图像尺寸方面需要二次复杂度,导致了较高的计算负担,特别是对于像医学图像分割这类需要密集预测的任务。这些模型当前的不足促使作者开发一种新的医学图像分割架构,这种架构能够捕捉强烈的远程信息,并保持线性的计算复杂度。
近期,状态空间模型(SSMs)在研究行人中引起了极大的关注。在经典SSM研究的基础上,现代SSM(例如,Mamba)不仅建立了长距离依赖性,而且对于输入大小展现出线性复杂性。此外,基于SSM的模型在许多领域都得到了大量研究,包括语言理解,通用视觉