Mamba-＞医学图像分割(一)

置顶鹤城北斗

已于 2024-07-29 18:30:06 修改

阅读量1k

点赞数 6

文章标签：深度学习

于 2024-07-02 12:47:02 首次发布

本文链接：https://blog.csdn.net/qq_18063797/article/details/140123777

版权

请关注我的微信公众号，谢谢啦
2023年12月1日(星期五)18:01:34，Mamba横空出世，为深度学习领域带来了新的可能。经过半年的发展，其应用场景已经从语言、音频等一维数据处理扩展到了图片与视频等二维或三维数据处理。基于深度学习的医学图像分割能够帮助医生快速准确进行疾病诊断，具有重要的临床意义，随着基于Mamba的医学图像分割模型相继出现，医学图像分割领域已经形成了CNN、Transformer、Mamba三足鼎立之势，三者互为补充，共同推进医学图像分割的快速发展。

CNN最先被应用到医学图像分割，但其缺少长距离信息交互能力。Transformer通过自注意力机制确保模型具有长距离信息交互能力，但代价是二次时间复杂度。Mamba提出选择性状态空间模型(SSM)，在线性时间复杂度情况下实现了长距离信息交互。

与Transformer类似，Mamba最先提出并没有考虑图像的二维空间特征提取。因此，将Mamba应用到医学图像分割任务自然需要针对这一问题提出解决方案，下面对学界已有的尝试进行归纳总结。

U-Mamba: Enhancing Long-range Dependency for Biomedical Image Segmentation[J]. arXiv, 2024.

U-Mamba是基于Mamba的第一个专门针对医学图像分割的研究。一作为南京航空航天大学-马骏，通讯作者为多伦多大学-王波。该模型直接将空间维度flatten，模型主体架构继承自nnU-Net。

创新点：提出hybrid CNN-SSM block，提出self-configuring mechanism自适应多个数据集不需人工干预。结果比CNN和Transformer方法都好。

数据集：the 3D abdominal organ segmentation in CT and MR images, instrument segmentation in endoscopy images, and cell segmentation in microscopy images

Image

Vision Mamba: Efficient Visual Representation Learning with Bidirectional State Space Model

Vision Mamba通讯作者为华中科技大学-王兴刚。同样将二维图像flatten。但采用了位置编码。

创新点：vision backbone with bidirectional Mamba blocks (Vim)。作者称Vim是第一个针对密集预测任务的纯SSM-based模型。所谓双向Mamba其实就是正序和反序作为Mamba输入。

Image

VMamba: Visual State Space Model

VMamba的作者包括：鹏程实验室-王耀伟华为-谢凌曦中国科学院大学-叶齐祥。

文章提出的VMamba是一个vision backbone，可以用于分割分类等各

种任务(没有应用unet结构)。提出Visual State-Space (VSS) blocks with the 2D Selective Scan (SS2D) module，并且发展了一个VMamba结构家族。其提出的VSS block启发了后续的若干工作，一部分直接应用该模块构建新模块，一部分在该模块基础上进行改进，例如SS2D的扫描方法。

ImageImage

VM-UNet: Vision Mamba UNet for Medical Image Segmentation

作者为Suncheng Xiang，上海交大助理教授

创新点：基于U-Net构建VM-UNet。应用VSS块作为基础块，但VSS块和其中核心操作SS2D都是直接从VMamaba拿过来。

Image

SegMamba: Long-range Sequential Modeling Mamba For 3D Medical Image Segmentation

作者单位为香港科技大学，本文是第一篇基于Mamba的针对3D医学图

像的分割模型。

创新点：为了在高维医学影像上用mamba，提出tri-orientated Mamba (ToM) module (TSMamba)；为了增强ToM前面的空间维度特征，提出gated spatial convolution (GSC) module；提出一个结直肠癌3D分割数据集CRC-500, 其中包括500个3D CT scans with expert annotations。

ImageImage

这里进行说明：Forward Features Interaction就是从最上面层开始，每次按顺序扫描一层后进入下一层；Reverse Feature Interaction就是从最下面一层开始，每次按顺序扫描一层后进入上一层；Inter-slice Feature Interaction就是每一层同一个位置(i,j)自上而下取，然后再自上而下取下一个位置(i,j+1)的所有层。

Swin-UMamba: Mamba-based UNet with ImageNet-based pretraining

通讯作者为香港大学 Hong-Yu Zhou。现有Mamba分割模型没有利用

预训练模型，原因是基于Mamba的分割模型没有适配已有的预训练模型，这可以看做一种资源浪费。

创新点：针对现有Mamba分割模型没有利用预训练模型，本文提出

Swin-UMamba用于2D医学图像分割，利用ImageNet-based pretraining。本模型采用VMamba-Tiny结构，模型在ImageNet预训练。

本文模型也将VMamba中的VSS直接拿过来，并且其模型结构很像VM-UNet。区别在于Swin-UMamba把输入图像直接skip了，并且只在encoder用VSS，在decoder没有用。

Image

暂时介绍这么多。从上面的发展脉络可以看出，Mamba分割模型针对图像扫描问题的探索从完全展平到SS2D，再到三维扫描方案。探索方向有通用的vision backbone，也有专门应用于医学影像分割的模型，基础架构也从U-Net到nnU-Net，并在主体结构中间增加新模块。可以观察到VMamba提出的VSS模块与SS2D模块已经被应用到其他模型中，说明其有效性和鲁棒性，未来Mamba的探索还有很大空间，但思维不能局限于Mamba+UNet，就像Mamba最开始的来源是物理上的自动控制理论，需要发散的思维和准确的科研直觉，还有一点灵光乍现。