【AI学习】Mamba学习(一):总体架构

论文:《Mamba: Linear-Time Sequence Modeling with Selective State Spaces》

作者1:Albert Gu,现在是CMU(卡内基梅隆大学)助理教授,曾在DeepMind 工作。多年来一直推动SSM架构发展。
作者2:Tri Dao,现为普林斯顿大学计算机科学助理教授。Together AI的首席科学家。斯坦福大学计算机科学系博士毕业。

    文章地址:https://arxiv.org/abs/2312.00752     

    项目地址:https://github.com/state-spaces/mamba.

总体架构

先直接来看一下论文的总体架构。Mamba架构是结合了H3和门控MLP两个架构形成的组合架构,下面的图很清楚。

在这里插入图片描述
架构图:我们的简化块设计,将H3块(大多数SSM架构的基础)与现代神经网络中无处不在的MLP块相结合。我们只是均匀地重复Mamba块,而不是交织这两个块。与H3块相比,Mamba用激活函数替换了第一个乘法门。与MLP块相比,Mamba在主分支中添加了一个SSM。对于𝜎,我们使用SiLU/Swish激活(Hendrycks和Gimpel 2016;Ramachandran、Zoph和Quoc V Le 2017)。

对于最左边的图,SSM 模型要工作,一般会在SSM的输出加上门控,之后再通过线性层。看上图的中间的图,这两个部分跟 Gate

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

bylander

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值