MedMamba论文阅读笔记-CSDN博客

本文链接：https://blog.csdn.net/Bug_Oreo/article/details/138152215

Motivation:

基于CNN的模型只能捕捉到局部的特征信息，而对全局的特征信息的捕捉存在不足，从而导致特征工程质量的优劣之分。而基于transformer的模型，问题存在于二次计算复杂度，对于计算能力的负担过重。因此我们开发了一种新的医学图像分类模型MedMamba，能够有效地捕获远程信息，并保持线性计算复杂度。

Contribution:

1）提出了MedMamba，标志着第一次探索的潜在应用的SSM为基础的模型在医学图像与不同的方式的结合

2）在五个数据集上进行了综合实验，结果表明MedMamba表现出相当的竞争力

3）我们为医学图像分类任务建立了一个新的baseline。

一、简介

由于CNN在医学图像细粒度特征提取时会受到限制，同时Transformer也同样受制于二次方的计算复杂度。最近的研究表明由Mamba表示的SSM模型可以高效的建模大范围的交互，同时也可以维持线性的计算复杂度。受SSM模型的启发，我们提出了用于医学图像分割的Vision Mamba模型（MedMamba）。该模型中最核心的模块就是Conv-SSM模块，该模块结合了卷积层的局部特征提取能力与 SSM捕捉大范围依赖性的能力。

二、引言

目前医学成像技术应用最多的例如：CT, MRI, US等等，然而对一些癌症或者其它疾病的检测与诊断主要依赖于医学领域专家的专业知识，从而导致了医生阅读和解释医学图像的方式差异。为了解决这一挑战，许多计算机辅助检测和诊断（CAD）解决方案已经被开发和测试，旨在帮助有效地阅读医疗图像，并以更准确的方式做出诊断决策。

近年来，状态空间模型（SSM）引起了研究者的极大兴趣。基于经典SSM研究，现代SSM（如Mamba）不仅建立了长距离依赖关系，而且还表现出与输入大小相关的线性复杂度。此外，基于SSM的模型在许多领域得到了广泛的研究，包括语言理解，医学分割等。

三、方法

3.1 SSM、 S4以及 Mamba

一下内容部分内容借鉴该连接，欢迎各位移步大佬博客下进行进一步学习：一文通透想颠覆Transformer的Mamba：从SSM、HiPPO、S4到Mamba_mamba模型-CSDN博客

3.1.1SSM: 全称为 Space State Model, 空间状态模型，是用于描述这些状态表示并根据某些输入预测其下一个状态可能是什么的模型。将连续序列作为输入并预测连续的输出序列

一般SSMs包括以下组成：输入序列x(t)，潜在状态表示h(t)以及预测输出序列y(t)

对于SSM来讲有两个关键的等式，即状态等式与输出等式：

通过求解这两个方程，可以根据观察到的数据：输入序列和先前状态，去预测系统的未来状态

3.1.2 S4:Structed State Space Sequence Model

S4相当于是对SSM的升级；SSM到S4的三步升级：离散化SSM、循环/卷积表示、基于HiPPO处理长序列

3.1.3 Mamba

mamba = 有选择处理信息 + 硬件感知算法 + 更简单的SSM架构

有选择的处理信息即意味着对原有的SSM模型中的A、B、C、D四个矩阵进行随着不同输入而进行动态值改变的变动，从而满足有侧重的选择处理信息。

硬件感知算法: 解决了由于在选择性处理信息这一步所带来的CNN无法并行计算的问题，从而引入了该算法。

更简单的SSM：将大多数SSM架构比如H3的基础块，与现代神经网络比如transformer中普遍存在的门控MLP相结合，组成新的Mamba块，重复这个块，与归一化和残差连接结合，便构成了Mamba架构。

3.2 MedMamba

如图所示，该MedMamba架构仅仅包含了3个patch merging层,4个Conv-SSM层以及一个 patch embedding层。

对于patch embedding层来讲,输入图像X:H×W×3分割成大小为4×4的不重叠patch，从而将图像的尺寸映射到C（这里，C的默认值设置为96），得到嵌入图像x: H/4 × W/4 × C

在前三个阶段的输出后，使用patch merging层来减少输入特征的高度和宽度，同时增加通道的数量。

我们在第四阶段使用Conv-SSM层，每个阶段的channel 数分别为 [C, 2C, 4C, 8C] （图片第一行中的第一个8C应为4C）

3.3 Conv-SSM Block

该模块是MedMamba的核心。总体来看，Conv-SSM是一个双分支模块，如下图所示。

首利用通道分割操作来将模块输入分割成两个相同大小的子输入，随后两个子输入分别输入到两个子分支中。

Conv分支: 即图中左边分支。我们使用连续的卷积层来构建子输入的局部特征。

SSM分支：如下图所示，首先利用正则化操作来对子输入进行处理，在经过正则化之后输入被分割成为了两个子分支。在SSM分支中的第一个子分支·(左侧), 输入经过了一个线性层以及一个激活函数，其输出与另一个分支的输出在最后进行逐元素相乘。在SSM分支中的第一个子分支·(右侧), input在经过一个线性层，一个激活函数以及一个深度可分离的卷积层后进入了SS2D模块进行进一步的特征提取操作，随后再经过一个正则化层来对提取到的特征进行处理并与第一分支的输出进行逐元素相乘，从而来融合两个分支的输出。

经过两个分支输出融合后的特征再经过一个线性层进行特征混合并加上一个跳跃连接(沿着channel维度进行特征融合)来获取Conv-SSM模块的最终输出。

MedMamba论文阅读笔记

一、 简介

二、 引言

三、 方法