Mamba：3 记忆殿堂

最新推荐文章于 2025-04-25 15:24:01 发布

庞德公

最新推荐文章于 2025-04-25 15:24:01 发布

阅读量1.1k

点赞数 21

分类专栏：新技术解读文章标签：人工智能自然语言处理 rnn

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Janexjy/article/details/138557767

版权

Mamba自从出道就一直被拿来和Transformer对比，文章巨多，带着标题的爆炸性字样“颠覆Transfomer”，“全面包围”等等。文章深浅不一，小编认为其背后的设计思路以及演化过程更加重要。为此本专题将从山上有座庙开始，沿着RNN、SSM、S4、HIPPO一路走来。期间抛弃冗杂的文辞，以更接地气的模式协助读者打开新的逻辑思维。

SSM的三种表现形式

接着Mamab2的话题，SSM本身是连续模型，通过某些算法和特殊处理将其改造为能够支持离散输入的模型。其实转化为离散模型之后，它和RNN有了共同点。这个模型和人类记忆的习惯一样，就如同一遍看书，一边总结，一边感悟。

SSM的一个最为关键的特征就是它具备三种不同的表示形式：连续时间、循环模式（离散）和卷积模式。SSM可以在不同的范式之间切换，以便于更加适合特定应用场景的需求。

声明一下在传统SSM文献中，一般输入的符号采用u，输出为y，中间状态为x。之前比较那张比较漂亮的图，中间状态是h，这点读者知晓即可。

连续的SSM和离散的SSM在上文已经详细的介绍过了。这里重点介绍卷积的形态。首先先来回忆下离散SSM的公式如下：

最低0.47元/天解锁文章

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。