1. 论文基本信息
-
论文标题:Mamba: Linear-Time Sequence Modeling with Selective State Spaces
-
作者:Albert Gu等
-
发表时间和期刊:2023.06;NeurIPS
2. 三大创新
简言之,Mamba是一种状态空间模型(SSM),建立在更现代的适用于深度学习的结构化SSM (简称S6)基础上,与经典架构RNN有相似之处
Mamba的三大主要创新点如下:
1. 对输入信息有选择性处理(Selection Mechanism)
2. 硬件感知的算法(Hardware-aware Algorithm)
该算法采用“并行扫描算法”而非“卷积”来进行模型的循环计算(使得不用CNN也能并行训练),但为了减少GPU内存层次结构中不同级别之间的IO访问,它没有具体化扩展状态。当然,这点也是受到了S5(Simplified State Space Layers for Sequence Modeling)的启发
3. 更简单的架构
将SSM架构的设计与transformer的MLP块合并为一个块(combining the design of prior SSM architectures with the MLP block of Transformers into a single block),来简化过去的深度序列模型架构,从而得到一个包含selective state space的架构设计
原文链接:https://blog.csdn.net/v_JULY_v/article/details/134923301