Mamba->医学图像分割(一)

2023年12月1日(星期五)18:01:34,Mamba横空出世,为深度学习领域带来了新的可能。经过半年的发展,其应用场景已经从语言、音频等一维数据处理扩展到了图片与视频等二维或三维数据处理。基于深度学习的医学图像分割能够帮助医生快速准确进行疾病诊断,具有重要的临床意义,随着基于Mamba的医学图像分割模型相继出现,医学图像分割领域已经形成了CNN、Transformer、Mamba三足鼎立之势,三者互为补充,共同推进医学图像分割的快速发展。

CNN最先被应用到医学图像分割,但其缺少长距离信息交互能力。Transformer通过自注意力机制确保模型具有长距离信息交互能力,但代价是二次时间复杂度。Mamba提出选择性状态空间模型(SSM),在线性时间复杂度情况下实现了长距离信息交互。

与Transformer类似,Mamba最先提出并没有考虑图像的二维空间特征提取。因此,将Mamba应用到医学图像分割任务自然需要针对这一问题提出解决方案,下面对学界已有的尝试进行归纳总结。

U-Mamba: Enhancing Long-range Dependency for Biomedical Image Segmentation[J]. arXiv, 2024.

U-Mamba是基于Mamba的第一个专门针对医学图像分割的研究。一作为南京航空航天大学-马骏,通讯作者为多伦多大学-王波。该模型直接将空间维度flatten,模型主体架构继承自nnU-Net。

创新点:提出hybrid CNN-SSM block,提出self-configuring mechanism自适应多个数据集不需人工干预。结果比CNN和Transformer方法都好。

数据集:the 3D abdominal organ segmentation in CT and MR images, instrument segmentation in endoscopy images, and cell segmentation in microscopy images

Image

Vision Mamba: Efficient Visual Representation Learning with Bidirectional State Space Model

Vision Mamba通讯作者为华中科技大学-王兴刚。同样将二维图像flatten。但采用了位置编码。

创新点:vision backbone with bidirectional Mamba blocks (Vim)。作者称Vim是第一个针对密集预测任务的纯SSM-based模型。所谓双向Mamba其实就是正序和反序作为Mamba输入。

Image

VMamba: Visual State Space Model

VMamba的作者包括:鹏程实验室-王耀伟 华为-谢凌曦 中国科学院大学-叶齐祥。

文章提出的VMamba是一个vision backbone,可以用于分割分类等各

种任务(没有应用unet结构)。提出Visual State-Space (VSS) blocks with the 2D Selective Scan (SS2D) module,并且发展了一个VMamba结构家族。其提出的VSS block启发了后续的若干工作,一部分直接应用该模块构建新模块,一部分在该模块基础上进行改进,例如SS2D的扫描方法。

ImageImage

VM-UNet: Vision Mamba UNet for Medical Image Segmentation

作者为Suncheng Xiang,上海交大助理教授

创新点:基于U-Net构建VM-UNet。应用VSS块作为基础块,但VSS块和其中核心操作SS2D都是直接从VMamaba拿过来。

Image

SegMamba: Long-range Sequential Modeling Mamba For 3D Medical Image Segmentation

作者单位为香港科技大学,本文是第一篇基于Mamba的针对3D医学图

像的分割模型。

创新点:为了在高维医学影像上用mamba,提出tri-orientated Mamba (ToM) module (TSMamba);为了增强ToM前面的空间维度特征,提出gated spatial convolution (GSC) module;提出一个结直肠癌3D分割数据集CRC-500, 其中包括500个3D CT scans with expert annotations。

ImageImage

这里进行说明:Forward Features Interaction就是从最上面层开始,每次按顺序扫描一层后进入下一层;Reverse Feature Interaction就是从最下面一层开始,每次按顺序扫描一层后进入上一层;Inter-slice Feature Interaction就是每一层同一个位置(i,j)自上而下取,然后再自上而下取下一个位置(i,j+1)的所有层。

Swin-UMamba: Mamba-based UNet with ImageNet-based pretraining

通讯作者为香港大学 Hong-Yu Zhou。现有Mamba分割模型没有利用

预训练模型,原因是基于Mamba的分割模型没有适配已有的预训练模型,这可以看做一种资源浪费。

创新点:针对现有Mamba分割模型没有利用预训练模型,本文提出

Swin-UMamba用于2D医学图像分割,利用ImageNet-based pretraining。本模型采用VMamba-Tiny结构,模型在ImageNet预训练。

本文模型也将VMamba中的VSS直接拿过来,并且其模型结构很像VM-UNet。区别在于Swin-UMamba把输入图像直接skip了,并且只在encoder用VSS,在decoder没有用。

Image

暂时介绍这么多。从上面的发展脉络可以看出,Mamba分割模型针对图像扫描问题的探索从完全展平到SS2D,再到三维扫描方案。探索方向有通用的vision backbone,也有专门应用于医学影像分割的模型,基础架构也从U-Net到nnU-Net,并在主体结构中间增加新模块。可以观察到VMamba提出的VSS模块与SS2D模块已经被应用到其他模型中,说明其有效性和鲁棒性,未来Mamba的探索还有很大空间,但思维不能局限于Mamba+UNet,就像Mamba最开始的来源是物理上的自动控制理论,需要发散的思维和准确的科研直觉,还有一点灵光乍现。
  • 6
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

鹤城北斗

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值