目录
比较四种网络架构——CNN、RNN、Transformer、Mamba
目录
比较四种网络架构——CNN、RNN、Transformer、Mamba
S4【结构化状态空间序列=SSM+HiPPO+Structured Matrices】
VSS视觉状态空间(VSS Block = 卷积+Silu激活+SS2D)
[ 附一个看到的Mamba论文用于医学图像处理的收集链接,用于不断追踪Mamba网络的发展Madhavaprasath23/Awesome-Mamba-Papers-On-Medical-Domain: A Comprehensive Survey of Mamba Architectures for Medical Image Analysis: Classification, Segmentation, Restoration, and Beyond (github.com)]
比较四种网络架构——CNN、RNN、Transformer、Mamba
网络结构 | 特点(优势) | 局限性 |
CNN |
|
局部感受野:CNN利用局部感受野的思想,通过卷积操作从图像中提取特征,这使得它在处理图像中的局部特征时非常有效,但是不能考虑到全局的特征。 计算复杂性:由于CNN的层数较多,参数量较大,导致模型的计算复杂性较高。 |
RNN |
|
只能关注于较短的上下文,对于长时序难以捕获到关系。 同时在训练参数的时候,由于参数共享和多次连乘的特性,容易出现梯度消失或梯度爆炸的问题,导致模型难以训练或无法收敛。 另外RNN的计算过程是顺序的,导致在训练和推理阶段计算复杂度较高。同时它对超参数敏感和可解释性较差。 |
Transformer |
|
Transformer模型中自注意力机制的计算量会随着上下文长度的增加呈平方级增长。 |
Mamba |
|
安装和环境配置问题:在实际应用中,Mamba模型及其相关组件(如causal-conv1d和mamba_ssm)的安装过程中常常遇到各种错误和兼容性问题,特别是在Windows系统上,这些问题包括连接超时、gcc版本不正确以及依赖不完整等。 |
Mamba核心创新点: ①注意力层可以线性增长;②可以处理长序列的数据;③推理速度可以达到Transformer的5倍
状态空间模型SSM
1 - 状态空间可以表示神经网络
State Space Model - h(t)为某一时刻的状态变量,导数h'(t)、输出y(t)都与当前时刻的状态h(t)和输入x(t)有关,数学表达为:
其中,t为时间,状态空间中将连续序列作为输入并预测输出序列。
即,状态空间SSM的作用是:① 输出伴随输入的变化而变化;② 模型会存储内部状态,并利用4个关键的矩阵A,B,C,D 改变内部状态和输出
参考Mamba:2 状态空间模型 (qq.com),一个简单的理解:
1. 输入序列x(t) —(例如游戏中的操作,直冲还是挥拳)
2. 根据输入映射到潜在状态h(t) —(例如,(操作不当导致)快要挂了的状态)
3. 并预测输出序列y(t) —(例如,要放大招反击)
同样地,大模型中的神经网络其实也有隐藏状态(上下文信息),当预测t时刻的输出(下一个字符Token)的时候也要根据当前t时刻的输入(当前的token),同时结合隐藏状态信息(上下文信息)。因此 状态空间与大模型技术的实现过程是类似的。