Ma J, Li F, Wang B. U-Mamba: Enhancing Long-range Dependency for Biomedical Image Segmentation[J]. arXiv preprint arXiv:2401.04722, 2024. 【开源】
本文对Mamba结构用于图像领域进行了简单的探索,就结构来说没有特别多创新,就是插入了Mamba块,但可以遇见下一个坑的到来。
【核心思想】
将CNN的局部特征提取能力与状态空间序列模型(SSM)的长程依赖性能力相结合。这种混合的CNN-SSM块使网络能够有效处理长序列,并具有自适应机制以适应各种数据集。
在四个不同的任务上进行了广泛的实验:CT和MR图像中的3D腹部器官分割、内窥镜图像中的器械分割以及显微镜图像中的细胞分割。在所有这些任务中,U-Mamba都展示出了优于现有最先进的CNN和Transformer网络的性能。
【网络结构】
- 基本结构
U-Mamba采用了一个编码器-解码器(encoder-decoder)的网络结构,这种结构能够同时捕获局部特征和长程上下文。它由两个主要部分组成:编码器和解码器。
- 编码器:U-Mamba的编码器部分由特殊的构建块组成,这些构建块包括两个连续的残差块(Residual blocks),后接一个基于SSM的Mamba块。这种设计使得网络能够在保持对局部特征的敏感性的同时,增强对长程依赖性的建模能力。
- 解码器:解码器由残差块和反卷积层组成,重点关注细节的局部信息和分辨率的恢复。U-Mamba还继承了U-Net中的跳跃连接(skip connection),用于将编码器中的分层特征连接到解码器。
- U-Mamba块的内部结构
U-Mamba块的核心是结合了卷积层和SSM的混合块。卷积层负责提取局部特征,而SSM则负责捕捉长程依赖性。具体来说,U-Mamba块包括以下步骤:
图像特征首先被展平并转置,然后通过层正规化(Layer Normalization)。
进入Mamba块后,特征在两个并行分支中被扩展。这两个分支分别使用线性层、一维卷积层、SiLU激活函数和SSM层。
【数据集】
【实验结论】