AI论文精读笔记-Mamba: Linear-Time Sequence Modeling with Selective State Spaces(Mamba)

1. 论文基本信息

  • 论文标题:Mamba: Linear-Time Sequence Modeling with Selective State Spaces

  • 作者:Albert Gu等

  • 发表时间和期刊:2023.06;NeurIPS

  • 论文链接:Generative Adversarial Nets

2. 三大创新

简言之,Mamba是一种状态空间模型(SSM),建立在更现代的适用于深度学习的结构化SSM (简称S6)基础上,与经典架构RNN有相似之处

Mamba的三大主要创新点如下:

1.        对输入信息有选择性处理(Selection Mechanism)
2.        硬件感知的算法(Hardware-aware Algorithm)
该算法采用“并行扫描算法”而非“卷积”来进行模型的循环计算(使得不用CNN也能并行训练),但为了减少GPU内存层次结构中不同级别之间的IO访问,它没有具体化扩展状态。当然,这点也是受到了S5(Simplified State Space Layers for Sequence Modeling)的启发
3.        更简单的架构
将SSM架构的设计与transformer的MLP块合并为一个块(combining the design of prior SSM architectures with the MLP block of Transformers into a single block),来简化过去的深度序列模型架构,从而得到一个包含selective state space的架构设计

原文链接:https://blog.csdn.net/v_JULY_v/article/details/134923301

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值