从状态空间SSM到Mamba

锅小白

已于 2024-12-19 15:13:28 修改

阅读量1.9k

点赞数 30

分类专栏：神经网络架构文章标签：人工智能 Mamba 神经网络 transformer

于 2024-08-20 15:18:22 首次发布

本文链接：https://blog.csdn.net/m0_46427461/article/details/141173016

版权

比较四种网络架构——CNN、RNN、Transformer、Mamba

状态空间模型SSM

比较四种网络架构——CNN、RNN、Transformer、Mamba

状态空间模型SSM

1 - 状态空间可以表示神经网络

2 - 离散的SSM

S4【结构化状态空间序列=SSM+HiPPO+Structured Matrices】

2D 选择性扫描（SS2D=S6+CSM）

VSS视觉状态空间（VSS Block = 卷积+Silu激活+SS2D）

[ 附一个看到的Mamba论文用于医学图像处理的收集链接，用于不断追踪Mamba网络的发展Madhavaprasath23/Awesome-Mamba-Papers-On-Medical-Domain: A Comprehensive Survey of Mamba Architectures for Medical Image Analysis: Classification, Segmentation, Restoration, and Beyond (github.com)]

比较四种网络架构——CNN、RNN、Transformer、Mamba

网络结构	特点（优势）	局限性
CNN	参数共享：CNN中的卷积核在整个图像中共享参数，这种权重共享机制显著降低了计算复杂度，并简化了训练过程。空间层次结构：CNN通过多层卷积和池化层自动学习输入数据的有用特征，使得CNN能够处理不同尺寸的图像。强大的特征提取能力：CNN尤其适用于图像识别和分类任务等并行计算：CNN中卷积和池化操作可以并行计算，因此在GPU等硬件上具备良好的高效能。	局部感受野：CNN利用局部感受野的思想，通过卷积操作从图像中提取特征，这使得它在处理图像中的局部特征时非常有效，但是不能考虑到全局的特征。计算复杂性：由于CNN的层数较多，参数量较大，导致模型的计算复杂性较高。
RNN	捕捉长期依赖关系：RNN具有记忆能力，可以捕捉序列数据中的长期依赖关系，适用于需要考虑上下文信息的任务。动态长度输入：RNN可以接受不定长度的输入，这使得它在处理时间序列数据时非常灵活。	只能关注于较短的上下文，对于长时序难以捕获到关系。同时在训练参数的时候，由于参数共享和多次连乘的特性，容易出现梯度消失或梯度爆炸的问题，导致模型难以训练或无法收敛。另外RNN的计算过程是顺序的，导致在训练和推理阶段计算复杂度较高。同时它对超参数敏感和可解释性较差。
Transformer	自注意力机制：Transformer通过自注意力机制能够同时处理整个输入序列中的所有位置，捕捉长距离依赖关系，从而更准确地理解文本含义。并行计算：Transformer能够并行处理整个输入序列，显著提高了训练速度和效率。灵活性和通用性：Transformer适用于各种序列到序列的任务，包括文本、图像等，并且具有很强的建模能力和通用性。位置关联操作不受限：Transformer的位置关联操作不受限，建模能力强，通用性强，可扩展性强	Transformer模型中自注意力机制的计算量会随着上下文长度的增加呈平方级增长。
Mamba	处理长序列数据：Mamba使用选择性状态空间来处理序列，解决了Transformer在处理长序列时的计算效率问题。注意力层可以随着序列长度而线性缩放，实现了更快的推理速度。计算效率：Mamba具有较高的计算效率，特别是在GPU上运行时，数据存取交互更为友好，Mamba的推理速度也显著优于Transformer（5倍）。选择机制：Mamba通过集成选择机制来控制记忆范围，从而提高模型的泛化能力，并且提供了在CV领域的应用潜力。可扩展性：Mamba架构具有出色的可扩展性，允许模型更容易地扩展到更大的尺寸，而不会牺牲性能。	安装和环境配置问题：在实际应用中，Mamba模型及其相关组件（如causal-conv1d和mamba_ssm）的安装过程中常常遇到各种错误和兼容性问题，特别是在Windows系统上，这些问题包括连接超时、gcc版本不正确以及依赖不完整等。