视觉Mamba综述——Visual Mamba: A Survey and New Outlooks论文总结

爱发呆的WWT

已于 2024-11-24 20:58:43 修改

阅读量7k

点赞数 32

分类专栏： Mamba 文章标签：机器学习深度学习人工智能论文笔记论文阅读

于 2024-08-30 20:03:59 首次发布

本文链接：https://blog.csdn.net/m0_60273616/article/details/141726031

版权

Mamba 专栏收录该内容

5 篇文章

订阅专栏

Visual Mamba: A Survey and New Outlooks

（31页，视觉Mamba综述）

香港科技大学计算机科学与工程系

https://github.com/Ruixxxx/Awesome-Vision-Mamba-Models.

任务背景

0.摘要

Mamba是最近提出的一种选择性结构化状态空间模型，擅长于长序列建模，在大模型时代至关重要。
长序列建模带来了巨大的挑战，包括捕获数据内部的长程依赖关系，以及处理因其长度过长而导致的计算需求。
Mamba通过克服卷积神经网络的局部感知限制和Transformers的二次计算复杂度来解决这些挑战。
鉴于Mamba相对于这些主流基础架构的优势，Mamba展现了其作为视觉基础架构的巨大潜力。自2024年1月以来，Mamba被积极应用于各种计算机视觉任务中，产生了许多贡献。

1.引言

人工智能技术，尤其是深度学习技术，彻底改变了众多的应用领域。在计算机视觉( CV )领域，卷积神经网络( CNNs )利用局部感受野和共享权重来处理视觉数据，利用局部和空间不变性等归纳偏差。
- 尽管CNN在图像分辨率和局部模式建模方面具有高效的线性计算复杂度，但其感受野有限。这种限制限制了它们捕获更大空间上下文的能力，这对于在需要全局信息的任务中全面理解场景或复杂的空间关系至关重要。
近年来，视觉Transformers，Vision Transformers，ViTs 利用自注意力机制处理序列在图像块中，已经在各种视觉任务中表现出卓越的建模能力。自注意力使得ViTs能够捕获图像内部的长程依赖关系，相比于依赖局部感受野的传统CNNs具有显著优势。这种能力使得ViTs能够在各种数据集上表现出稳健的性能，并有效地扩展到大模型规模。
- 然而，自注意力机制涉及到对补丁数量的二次计算成本，这限制了ViTs的可扩展性。CV结构域长期以来被CNNs和ViTs所主导，各自具有各自的优势和固有的局限性。为了克服这些模型的局限性，研究人员付出了巨大的努力来改进这些模型。最近，结构化状态空间模型由于其计算效率和计算效率得到了广泛的关注.
状态空间模型是一个在各个学科中被广泛采用的概念。它的核心思想是使用一个隐状态连接输入和输出序列。它在不同的学科中具有不同的表现形式，如强化学习中的马尔科夫决策过程、计算神经科学中的动态因果建模和控制中的卡尔曼滤波器等。最近，状态空间模型( SSM )被引入到深度学习中用于序列建模，其参数或映射通过梯度下降进行学习。
- SSM本质上是一种序列变换并且可以融入到深度神经网络中。它在概念上统一了以往序列模型设计范式的优势，包括连续时间模型( CTMs )、循环神经网络( RNNs )和卷积神经网络( CNNs )。其中，虽然CNN主要用于处理空间数据，但它不是序列的，但可以利用其编码局部上下文的能力来适应序列建模，并促进可并行计算。然而，由于状态空间模型需要大量的计算和存储，其在实际中并没有得到广泛的应用。
- 这种情况随着结构化SSM ( S4 )的出现而改变，它通过重新参数化状态矩阵来解决这些限制。此后，一系列包含SSM层的SSM变换和神经网络架构出现了。然而，SSMs的常量序列转换限制了其基于上下文的推理能力，这对于Transformer等模型的有效性非常重要。
- 在Mamba中，作者提出通过在SSM中集成一个选择机制来解决这个问题，从而使SSM能够根据当前令牌沿着序列或扫描路径选择性地传播或遗忘信息。此外，为了有效地计算这些选择性SSM，作者开发了一种硬件感知算法。随后，作者将这些选择性SSM集成到一个简化的神经网络架构中，命名为Mamba。Mamba具有类似Transformers的建模能力和序列长度上的线性可扩展性，成为序列m的一个很有前途的基础架构
由于越来越多的序列建模或自然语言处理( NLP )技术被应用到CV中，Mamba 在CV任务中得到了快速应用。VMamba是早期具有代表性的视觉Mamba模型。它将图像块沿着图像的水平和垂直维度展开成序列，并沿着这两个方向进行双向扫描。
- 另一种视觉Mamba模型Vim 利用位置嵌入融入空间信息，受到Vi T 的启发。对于非因果图像序列，采用双向SSM进行处理。类似地，其他几项著名的研究也对视觉骨干网络进行了深入的探索，并取得了一致的表现在跨分类、检测和分割任务的迭代性能。为了强调可视化Mamba模型中效率和有效性之间的平衡，图5提供了一种图形表示，比较了它们的性能和计算复杂度。除此之外，Mamba还在图像处理、视频分析、点云处理和多模态场景中得到了广泛的应用。
- 得益于上述建模能力和线性可扩展性，Mamba是CV任务的一个有前途的基础架构。研究人员对将Mamba应用于各种视觉任务的兴趣越来越大，这反映在越来越多的研究致力于这种探索，如图1所示。

本文贡献

1 . Mamba的提法(第2节)：介绍了Mamba的工作原理，并强调了它与传统状态空间模型的区别。

2 .骨干网(第3节)：对几个具有代表性的视觉Mamba骨干网进行了详细的研究。该分析旨在阐明支撑视觉Mamba框架的核心原则和创新点。

3 .应用(第4部分)：将Mamba的应用按不同的模态进行分类，例如图像、视频、点云和多模态数据。每个类别都进行了深入的探讨，以突出Mamba框架如何适应和受益于各个模态。

4 .挑战和未来方向(第5节)：研究了可视化Mamba模型的挑战，重点关注其可扩展性、因果关系、语境学习和可信性。更重要的是，为视觉Mamba模型勾勒了未来的发展方向，为探索其未开发的潜力提供了新的视角。

视觉Mamba骨干网络

这些骨干网络可以分为纯Mamba网络和混合Mamba网络。纯Mamba网络仅依靠Mamba架构处理视觉数据，而混合Mamba网络将Mamba架构与其他神经网络架构(如卷积神经网络和注意力机制)结合起来，利用它们的优势互补。

3.1Pure Mamba

Vim

Vim是一种基于Mamba的架构，直接操作类似于ViT的图像块序列。首先将输入图像转化为平坦的2D图像块，然后使用线性投影层将其向量化，并添加位置嵌入以保留空间信息。
Following ViT和BERT，在补丁令牌序列中追加一个类令牌(a class token is appended to the sequences of patch tokens)。然后将整体令牌token序列输入到Vim编码器中，Vim编码器被构造为一系列相同的Vim块。如图3所示，Vim块是一个Mamba块，它与前向SSM路径一起集成了一条后向SSM路径。

VMamba

由于其选择机制的一维因果属性，在将Mamba应用于2D图像时，有着方向敏感的问题。这种选择机制使得Mamba无法从部分未扫描数据中同化信息。因此，1D扫描对于同时捕获图像不同方向的依赖信息并不是最优的，从而导致有限的感受野。
为了应对这一挑战，VMamba引入了交叉扫描模块( Cross-Scan Module，CSM )。CSM将输入图像转化为水平和竖直两个方向的面片序列(交叉扫描)，对面片序列进行四个方向的扫描：从左上到右下，从右下到左上，从右上到左下，从左下到右上。然后将得到的四个序列分别使用选择性SSM进行处理。该操作也可以看作是沿着2D轴执行双向选择性SSM。因此，每个像素在四个不同的方向上集成了所有其他像素的信息。最后，将所有序列转化为其原始的2D布局来构成地图，并进行合并以获得输出地图(交叉合并)。交叉扫描、选择性SSM和交叉融合的整个过程构成了二维选择性扫描( SS2D )。
VMamba首先将输入图像转化为2D图像块。然后将它们送入VMamba的多个阶段，这些阶段由堆叠的视觉状态空间( Visual State Space，VSS )块组成，并在这些阶段之间插入下采样操作，以构建整体的分层架构。VMamba引入了两种VSS块，如图3所示的传统VSS块和VSS块。传统VSS块与Mamba块类似，但将1D卷积层替换为2D深度卷积层，选择性SSM替换为SS2D加一层归一化( LN )层。VSS块类似于典型的Transformer块。

PlainMamba

PlainMamba被设计成一个非层次的结构，以实现以下几个目标：( 1 )非层次的结构可以促进多层次的特征融合，增强不同尺度的集成；( 2 )支持多模态数据的有效融合；( 3 )其简单的结构往往能提供更好的泛化能力；( 4 )便于硬件加速优化。
首先，将输入图像转化为2D块标记，并与位置嵌入相结合以保留空间信息。与ViT不同的是，没有使用特殊的令牌，如类令牌class token。然后将这些令牌用一系列相同的PingMamba块进行处理，如图3所示。
PlainMamba模块与Mamba模块类似，不同之处在于使用2D深度卷积层代替1D卷积层，更重要的是调整了Mamba的选择性扫描机制，使1D操作适应2D图像。首先，如图4所示的锯齿形扫描，采用连续的2D扫描技术以确保标记的空间邻接性并防止不连续性。其次，提出了一种方向感知更新技术，将相对2D位置信息显式地纳入到选择性扫描过程中。
由于视觉数据缺乏预定义的顺序及其固有的空间维度，几种纯Mamba网络专注于扫描技术。

其他网络

Mamba-ND旨在将Mamba扩展到包括图像和视频在内的多维数据。它将1D Mamba层视为一个黑盒子，探索如何对多维数据进行解卷积和排序。结果表明，由一系列Mamba层和简单的交替方向排序实现了更优越的性能。
FractalMamba ( Tang et al , 2024b)采用分形扫描曲线，即希尔伯特曲线，如图4所示，用于处理二维图像块。
不同的是，Mamba ® ( Wang et al , 2024a)识别出Vision Transformers中观察到的特征伪影在Vim中更加明显。为了缓解这一问题，Mamba ®从战略上对Vim进行了细化在视觉令牌序列中插入与输入无关的令牌，简称寄存器( Darcet et al , 2024)令牌。
ARM ( Ren et al , 2024b)证明了自回归预训练非常适合Mamba架构，显著增强了其视觉性能，并释放了其扩展潜力。

3.2Hybrid Mamba

LocalMamba

LocalMamba在Vim和VMamba模型中识别出一个显著的局限性，即在单次扫描过程中空间局部标记之间的依赖关系被破坏。为了克服这个问题，正如图4所描述的局部采样，LocalMamba像VMamba一样，将输入图像分割成多个局部窗口来执行不同方向的SSM，同时也保持全局SSM操作。此外，LocalMamba在patch合并之前实现了空间和通道注意力模块，以增强方向特征的整合并减少冗余。LocalMamba模块如图3所示。此外，它还采用了一种策略为每一层选择最有效的扫描方向，从而优化计算效率。

EfficientVMamba

EfficientVMamba引入了高效二维扫描( ES2D )技术，该技术通过对特征图上的patches进行空洞采样atrous sampling来减少计算负担。空洞采样示意如图4所示。ES2D用于提取全局特征，而并行卷积分支用于提取局部特征。然后，这两种特征类型分别由Squeeze - andExcitation ( SE )模块单独处理。综合来看，ES2D、卷积分支和SE块构成了高效视觉状态空间( Efficient Visual State Space，EVSS )块的核心组成部分。
EVSS块的输出是经过调制的全局特征和局部特征的总和。EVSS模块如图3所示。EVSS块构成了EfficientVMamba的早期阶段，而Inverted Residual块则反向构成了后期阶段。

其他网络

一些骨干网backbone networks从频域引入操作。
SiMBA ( Patro和Agneeswaran , 2024b)旨在解决Mamba在视觉数据集上扩展到大型网络的不稳定性问题。它使用Mamba进行序列建模，并提出了一种新的信道建模技术，称为Einstein FFT ( EinFFT )。Ein FFT采用傅里叶变换，在频域进行爱因斯坦矩阵乘法( EMM )。具体来说，EMM将输入和权重矩阵沿信道维度重新组织成块，使得每个块都是对角矩阵，以进行高效计算。在乘法之后，应用一个非线性激活函数来调制Mamba块中的特征值，以确保稳定性，遵循的原则是，如果演化矩阵的所有特征值都是负实数(奥本海姆和韦尔盖塞, 2010)，则实现稳定性。
VimF ( Zhang et al , 2024b)利用傅里叶变换将特征图转换到频域和将其添加到原始特征图中，从而缓解了Vim ( Zhu et al , 2024a)的弊端。由于频率特征图中的每个点都依赖于整个原始特征图，因此频域扫描保证了一个全面的全局感受野。此外，傅里叶变换的平移不变特性有助于减轻扫描策略引入的感应偏差。Vim-F进一步消除了位置嵌入的需要，并引入了一种新的适用于Mamba的块嵌入方法，使用重叠卷积来建模令牌之间的空间相关性。
此外，为了兼顾性能和效率，MSVMamba (史玉明等, 2024a)修改了VMamba ( Liu et al , 2024g)中使用的SS2D扫描，通过对SS2D内3个方向的图像进行降采样来缩短序列长度，形成了多尺度2D ( MS2D )扫描策略。此外，每个MSVMamba块包含一个卷积前馈网络( Convolutional Feed-Forward Network，ConvFFN )，以增强通道间的信息交换和局部特征提取。

3.3总结主要改进之处

1.Tokenization

为了处理2D图像，它们首先通过一个茎模块stem module转换成视觉令牌visual tokens序列，通常包括一个卷积层和一个线性投影层。位置嵌入的添加是可选的，因为SSM操作本身具有因果特性。类标记的包含也是可选的。一些工作插入额外的令牌来充当寄存器( Darcet et al , 2024)或感知行或列之间的不连续性。
现有的方法通过将图像序列视为1D或2D结构进行SSM变换和基于Mamba块的卷积操作来处理图像序列。

2.Scan

选择性扫描机构是Mamba的关键部件。然而，它最初针对1D因果序列的设计在将其适应于非因果视觉数据时提出了挑战。大量的研究工作致力于应对这些挑战。在下面的小节中，我们将这些工作分为4个主要部分进行讨论：扫描方向、扫描轴、扫描连续性和扫描采样。这种分类是基于扫描技术的目的。扫描方向解决了视觉序列的非因果特性；扫描轴处理视觉数据中固有的高维性；扫描连续性考虑了沿扫描路径的patches在空间上的连续性；扫描采样将整幅图像划分为子图像以捕获空间信息。这四组的示意图见图4。

扫描方向：将视觉数据展开为1D序列后，可以使用不同的扫描方向来处理这些序列的非因果性质。
- 首先将原始的单方向选择性扫描技术记为SD。
- 在( Zhu et al , 2024a)中，双向序列建模用于互为增强的感受野。称这种方法为BD。
- 除了两种常见的扫描方向外，还可以采用补充shuffle或reordering策略进行扫描。用+ Shuffle或+Reordering分别表示这些策略的使用。
扫描轴：视觉数据不同于典型的序列，它具有2D或更高维的空间信息，这些信息同时包含了局部和全局上下文。目前的方法是将视觉数据沿各个坐标轴展开，以充分整合这些空间信息。
- 例如，二维图像的扫描轴通常包括水平、垂直、左对角线和右对角线，分别记为H、V、LD和RD。
- 对于3D视觉数据，坐标轴还涉及深度或时间维度，记为D。
扫描连续性：
- 替代技术被用于处理视觉数据中的2D空间信息。
- 一些方法受ViT的启发，将图像展平成序列。然而，这种技术可能会导致行或列之间的空间不连续；本文将这种技术称为光栅扫描。
- 相比之下，其他方法确保连续扫描，以保持相邻令牌之间的空间连续性，本文将这种技术称为Zigzag。
- 一些方法利用分形扫描曲线来更好地捕捉图像中的结构信息。具体来说，希尔伯特曲线的使用，我们称之为希尔伯特Hilbert，保留了它们的空间关系，显著提高了令牌token的邻接性。
扫描采样：本文将图像划分为子图像进行扫描的采样技术称为Local Sampling和Atrous Sampling基于他们论文中的原始术语。值得注意的是，在这些子图像中，可以使用前3组扫描技术的不同组合，从而允许不同的处理方法，而不需要在所有子图像之间实现统一。对得到的子图像和原始的全图像进行了比较，这种比较被称为全局采样Global Sampling。

这4组扫描技术具有互操作性，可以协同组合以增强视觉数据分析。

3.Block

前面提到的扫描技术和选择性SSM变换的不同组合形成了不同的块，这些块是基于Mamba架构的组成部分。在讨论视觉的Mamba骨干网络时，本文提供了这些模块的概述。图3展示了一组视觉Mamba块，包括Vision Mamba ( Vim )，Visual State Space ( VSS )，Efficient Visual State Space ( EVSS ) ，PlainMamba 和LocalMamba块。Mamba区块也被纳入，以方便直接比较，突出了这些区块在视觉领域的进化设计。图中详细说明了不同块体的扫描技术及其特点。

图3给出的解耦结果也验证了本文对扫描技术进行分类的逻辑。由于Mamba、Vim和VSS块在应用程序中被广泛使用，将在后续章节中详细介绍。为了清晰起见，本文将它们简单地称为Mamba、Vim和VSS。它们的算法细节在在线资源中呈现。对这些块的修改用星号( * )表示。

实验结果

3.4实验结果

（实验数据表格请直接移步原论文）

图像分类
- 目前，大多数基于Mamba的网络虽然效率很高，但仅限于在21G下使用FLOP的小规模实现。虽然Mamba ®已经展示了对更大模型的可扩展性，但仍然需要性能增强。总的来说，视觉Mamba网络表现出良好的性能，但仍然低于先进的基于CNN和Transformer的网络。还需要进一步探索将视觉的Mamba网络扩展到更大的配置。
目标检测
- 通过Mask R-CNN ( He et al , 2017)在MS COCO ( Lin et al , 2014)上对目标检测和实例分割性能进行了比较，结果如表2所示.
- 所有模型的目标检测和实例分割性能也遵循缩放规律。可以观察到，在计算复杂度相当的情况下，视觉Mamba网络超过了基于CNN的ConvNeXt，除了为轻量级目的设计的EfficientVMamba。在视觉Mamba网络中，VMamba 的性能最好。VMamba优于所有基于CNN的网络和大多数基于Transformer的网络。但其性能略差于SG - Former。
- 这些结果表明，Mamba捕获长程依赖和利用动态权重的能力对于密集预测任务是有利的。然而，与基于Transformer的方法相比，其选择机制可能会限制其性能。尽管如此，视觉Mamba网络显示出在目标检测和实例分割方面的显著的潜力。目前，基于Mamba的模型并没有专门为这些任务量身定做，这预示着未来的研究可以探索和提高它们的性能。
语义分割
- 利用UperNet在ADE20K上进行语义分割性能对比，表3中列出了各自论文的结果。
- 不同网络的语义分割性能与其目标检测性能相似。VMamba 在可视化的Mamba网络中表现最好，超过了所有基于CNN的网络和大多数基于Transformer的网络。但其性能落后于SG - Former。这些结果进一步证明了Mamba在密集预测任务中的有效性。基于Mamba的专门为这些任务设计的模型值得进一步探索。

总之，基于Mamba的模型显示出对scaling laws的遵守。它们的优势在密集预测任务中的效率和性能是显而易见的，表明它们作为下一代视觉网络的潜力。然而，将视觉Mamba扩展到更大的配置还需要进一步的研究。此外，仍然需要更多探索专门为密集预测任务量身定制的基于Mamba的模型。

应用

图像

分类：除了用于表示学习的图像分类主干外，基于Mamba的架构对长序列的可扩展性导致其被用于高维图像(例如,全切片图像扫描技术Whole Slide Images, 3D医学图像和遥感图像)的分析。
分割：分割仍然是计算机视觉中一个重要和突出的领域，对各种现实世界的应用具有巨大的价值。Mamba因其管理广泛的视觉数据的能力而准备加强分割任务。
生成：直觉上，将Mamba架构应用于一系列生成任务，以实现足够长的序列交互，有可能获得令人印象深刻的性能。
重建：最近，Mamba架构也被广泛地应用到各种图像恢复任务中。这些低级任务包括将退化图像重建到原始状态，如图像去雾、去雨和超分辨率，以及通过调整亮度、对比度和其他视觉属性来增强图像质量，如弱光增强和水下图像增强。
其他：一些工作将Mamba用于其他视觉任务。MambaAD ( He et al , 2024a)将Mamba应用于多类无监督异常检测。MambaVC (秦四清等, 2024)探索了使用Mamba架构进行视觉压缩。

视频

视频处理是计算机视觉的基本方向之一。视频处理的首要目标是有效地掌握跨越长语境的时空表征。Mamba以其选择性的状态空间模型在该领域中脱颖而出，在保持线性复杂度和实现有效的长期动态建模之间取得了平衡。这种创新的方法已经被广泛采用，形式多样视频分析任务如视频理解和视频生成。

点云

点云是一种基本的三维表示，提供了连续的空间位置信息3D坐标。点云的内在无序性和不规则性一直是3D视觉中的一个挑战。受Mamba的线性复杂度和全局建模能力的启发，在点云处理领域研究了几种通用的基于SSM的骨架。
在分类和分割等常见任务中，一些方法主要探索逻辑几何扫描顺序将点云转换为1D点序列。

多模态

实现多模态目标的一个重要挑战在于有效地捕获和融合不同模态之间的信息。根据输入数据的模态相关性，这些方法可以分为两种不同的范式：同质多模态方法和异质多模态方法。
同质多模态范式是指输入数据由多个模态共享相似数据类型的任务组成，包括MRI - CT配准、医学图像融合、医学图像生成、遥感图像全色锐化、红外-可见光图像融合、RGB -红外图像目标检测和可见光-热红外/深度图像语义分割。
异质多模态范式是指输入数据由多种不同数据类型的模态组成的任务。在文本驱动生成领域，Mamba架构被用于视觉处理。