Mamba:3 记忆殿堂

 

Mamba自从出道就一直被拿来和Transformer对比,文章巨多,带着标题的爆炸性字样“颠覆Transfomer”,“全面包围”等等。文章深浅不一,小编认为其背后的设计思路以及演化过程更加重要。为此本专题将从山上有座庙开始,沿着RNN、SSM、S4、HIPPO一路走来。期间抛弃冗杂的文辞,以更接地气的模式协助读者打开新的逻辑思维。

SSM的三种表现形式

接着Mamab2的话题,SSM本身是连续模型,通过某些算法和特殊处理将其改造为能够支持离散输入的模型。其实转化为离散模型之后,它和RNN有了共同点。这个模型和人类记忆的习惯一样,就如同一遍看书,一边总结,一边感悟。

SSM的一个最为关键的特征就是它具备三种不同的表示形式:连续时间、循环模式(离散)和卷积模式。SSM可以在不同的范式之间切换,以便于更加适合特定应用场景的需求。

声明一下在传统SSM文献中,一般输入的符号采用u,输出为y,中间状态为x。之前比较那张比较漂亮的图,中间状态是h,这点读者知晓即可。

连续的SSM和离散的SSM在上文已经详细的介绍过了。这里重点介绍卷积的形态。首先先来回忆下离散SSM的公式如下:

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值