Mamba和S4解读

最新推荐文章于 2025-03-25 10:39:47 发布

Jeffrey-zh

最新推荐文章于 2025-03-25 10:39:47 发布

阅读量2k

点赞数 9

文章标签：人工智能计算机视觉

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Jeffrey_0711/article/details/136579690

版权

序列建模

在这里插入图片描述

时间复杂度与并行化

RNN：O(N),不可并行
CNN：可以并行
Transformer：O( $N^2$ )，可以并行（训练时）；不利于扩展到长序列

理想的模型

可以并行化训练，又能够像RNN一样有线性的时间复杂度，同时可以预测每一个token的时候只需要恒定的内存消耗（例如像RNN一样O(1)）

Transforme预测第i个token时需要计算前i个token的注意力机制，是O（ $N^2$ )

State space models

在这里插入图片描述
这个状态表示是线性的，与时间无关；
首先因为计算机总是处理离散信号，因此需要将这个系统离散化，并求h(t)的近似解

离散化状态函数h(t)推导

在这里插入图片描述
将导数由定义展开，最终得到一个循环方程式
举例

当利用时间步delta=1时其上升比较缓慢，与解析解函数不会完全重合

State space model状态推导

由如下公式
在这里插入图片描述
以及State space model的定义

可知：

正式论文中的离散化方法

ZOH方法，与上面不同但思想一致，都是利用delta的边缘化来计算近似解。
在这里插入图片描述
在实际计算过程中我们不会指定步长delta，而是设置为参数，让模型自己去学习
这样我们可以得到类似RNN的计算公式

Mamba的训练

上面的结构非常适合大模型推理，每次推理时不会关注过去的状态，但不太适合训练
利用卷积计算实现并行化
在这里插入图片描述
上述公式的输出可以利用一个卷积核K来实现：

可以证明卷积运算的结果与推导出来的上式相同

一个yk的计算可以放在GPU的一个线程上完成，虽然构建卷积核可能很昂贵但是这加快了速度

A bar矩阵捕获了之前所有的状态信息

在这里插入图片描述
为了达到这种效果，作者使用了HIPPO理论，去利用之前的输入信号构建当前时刻的输入信号；与傅里叶变化的差距是，对最近的信号拟合较好，对于较远的拟合平均值

对于每个维度都需要一个SSM，类似Transformer的多头

Mamba优化

SSM的一些难点

SSM能做到什么：
SSM不能做到：

Mamba和S4区别

在这里插入图片描述
B，C，Delta由输入的函数决定，不再固定；因此不能使用卷积来评估，这里作者用了一种SCAN的操作

并行化SCAN，由于满足结合律
在这里插入图片描述

最后进行了一些工程上的优化：Parellel scan、 kernel fusion、recomputation

博客等级

码龄3年

13
原创

52
点赞

86
收藏

26
粉丝

关注

私信

热门文章

分类专栏

深度学习 3篇

展开全部收起

最新评论

计算机视觉&多模态算法实习面试记录
有闲的小孩新子: 各个都是大厂啊，不过这些大厂都是招聘薪资呢，可以说下嘛
计算机视觉&多模态算法实习面试记录
neho: 我也参加过这个比赛，我们可能在吉利见过哈哈哈
多模态模型及大模型总结
转行CV的白蔡: 佬看看私信
2023全球智能汽车AI挑战赛——赛道二：智能驾驶汽车虚拟仿真视频数据理解赛道
CSDN-Ada助手: 恭喜您撰写了第9篇博客！标题中提到的2023全球智能汽车AI挑战赛的赛道二似乎非常有趣。通过智能驾驶汽车虚拟仿真视频数据的理解，这无疑是一个充满挑战但又极具前景的赛道。您的博客标题吸引了我的注意，我期待能够阅读您的深入分析和见解。对于下一步的创作，我谦虚地建议您可以进一步探索该赛道的技术挑战和解决方案，并与我们分享您对于智能驾驶汽车虚拟仿真视频数据理解的新的观点和见解。祝您继续创作，希望您的博客会继续为读者带来独特而有价值的内容！
大模型应用开发
CSDN-Ada助手: 恭喜您写了第8篇博客，标题为“大模型应用开发”！您的持续创作精神令人钦佩，希望您能继续分享关于大模型应用开发的经验和见解。或许下一步可以考虑加入一些实际案例或者技术应用的分析，让读者更加深入地了解这个领域。期待您的新作，谢谢您的分享！

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。