【AI学习】Mamba学习（一）：总体架构

最新推荐文章于 2025-03-13 19:36:25 发布

bylander

最新推荐文章于 2025-03-13 19:36:25 发布

阅读量2.3k

点赞数 10

分类专栏： AI学习 AI论文阅读文章标签：人工智能学习架构深度学习

本文链接：https://blog.csdn.net/bylander/article/details/142696982

版权

论文：《Mamba: Linear-Time Sequence Modeling with Selective State Spaces》

作者1：Albert Gu，现在是CMU(卡内基梅隆大学)助理教授，曾在DeepMind 工作。多年来一直推动SSM架构发展。
作者2：Tri Dao，现为普林斯顿大学计算机科学助理教授。Together AI的首席科学家。斯坦福大学计算机科学系博士毕业。

    文章地址：https://arxiv.org/abs/2312.00752     

    项目地址：https://github.com/state-spaces/mamba.

总体架构

先直接来看一下论文的总体架构。Mamba架构是结合了H3和门控MLP两个架构形成的组合架构，下面的图很清楚。

在这里插入图片描述
架构图：我们的简化块设计，将H3块（大多数SSM架构的基础）与现代神经网络中无处不在的MLP块相结合。我们只是均匀地重复Mamba块，而不是交织这两个块。与H3块相比，Mamba用激活函数替换了第一个乘法门。与MLP块相比，Mamba在主分支中添加了一个SSM。对于𝜎，我们使用SiLU/Swish激活（Hendrycks和Gimpel 2016；Ramachandran、Zoph和Quoc V Le 2017）。