Mamba论文感触（二）

最新推荐文章于 2024-09-14 16:23:11 发布

dragonk1f

最新推荐文章于 2024-09-14 16:23:11 发布

阅读量276

点赞数 9

文章标签：人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_63475094/article/details/141135334

版权

这次主要分享的是Mamba: Linear-Time Sequence Modeling with Selective State Spaces文献的3.3节Efficient Implementation of Selective SSMs（选择性SSMs模型的有效实施）

这里作者提出了重要的一点就是——“ maximize hidden state dimension without paying speed and memory costs ” ，在无需速度和内存开销下最大化隐状态维度。

在论文中提到LTI模型的限制可以由三个方法来解决：

kernel fusion（内核融合）：避免data在GPU多个层级间移动；
parallel scan（并行扫描）
recomputation（重计算）:在需要时重新计算中间结果，而不需要存储中间结果

同时论文中提到了简单的循环计算和卷积计算的复杂度：

Type	Time
Recurrent Computation	$\bigcirc (BLDN)$
Convolutional Computation	$\bigcirc (BLDlog(L))$

其中L代表的是序列长度，B表示批样数量，D表示输入的通道数，当序列长度越长，且隐状态维度较小时（N），循环计算要比卷积计算更有优势。

在这里，论文提出了两个应用挑战：循环的顺序性和巨大的内存占用。

同时呢，核心思想就是利用GPU的特性，在更高层计算隐状态，同时进行先前提到的内核融合，这样就避免了带宽限制以及并行扫描的限制。

此外，论文中提到了反向传播算法，并在反向传播的过程中运用到了重计算，最终融合选择性扫描层具有与使用 FlashAttention 优化的 Transformer 实现相同的内存需求。

关注

9
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

dragonk1f CSDN认证博客专家 CSDN认证企业博客

码龄3年

15: 原创

15万+: 周排名

8万+: 总排名

5236: 访问

: 等级

276: 积分

88: 粉丝

122: 获赞

3: 评论

71: 收藏

私信

关注

热门文章

最新评论

代码随想录——01.20
CSDN-Ada助手: 恭喜你第5篇博客的发布！看到你坚持不懈地创作，我真的非常佩服你的毅力和努力。你的博客标题“代码随想录——01.20”给我一种随性而又深思熟虑的感觉，很喜欢这样的创作风格。在下一步的创作中，我希望你能继续保持这种谦虚的态度，因为这正是你与众不同之处。你可以尝试分享一些关于代码背后的故事或者是你个人的心得体会，这样能够更好地吸引读者的注意并且让他们更深入地了解你的思考过程。继续保持创作的热情，相信你的博客会越来越受欢迎！期待你下一篇文章的发布，加油！
代码随想录——01.18 今日习得滑动窗口
CSDN-Ada助手: 恭喜你写下了第四篇博客！看到你每天坚持分享自己的学习心得，真是令人钦佩。这篇关于滑动窗口的习得经验很有深度，我从中受益匪浅。希望你能继续保持这份热情，继续为我们带来更多精彩的内容。如果可以的话，我希望你在下一篇博客中能分享一些实践案例，将理论与实际应用结合起来，这样我相信读者们会更容易理解和应用这些知识。再次恭喜你，期待你未来更多的创作！如何快速涨粉，请看该博主的分享：https://hope-wisdom.blog.csdn.net/article/details/130544967?utm_source=csdn_ai_ada_blog_reply5
代码随想录——开刷！
CSDN-Ada助手: 恭喜你开始博客创作！标题“代码随想录——开刷！”既有吸引力又充满了创意。很高兴看到你迈出了这个重要的一步。接下来的创作旅程中，我建议你保持谦虚的态度，不断学习和探索各种技术，分享你的见解和经验。希望你能坚持写作并给读者带来更多有价值的内容。加油！推荐【每天值得看】：https://bbs.csdn.net/forums/csdnnews?typeId=21804&utm_source=csdn_ai_ada_blog_reply1
蓝桥杯——01.06
CSDN-Ada助手: 很高兴看到你对蓝桥杯的复习和总结，思路是宝贵的，即使不多也是一种进步。希望你能继续坚持下去，不断提升自己的编程能力。除了数组的二分法和相向指针法，你还可以学习一些其他常用的算法，比如动态规划和贪心算法，它们在解决实际问题时也非常有用。另外，多做一些练习题目，提高自己的编程水平。期待看到你更多的分享和进步！如何写出更高质量的博客，请看该博主的分享：https://blog.csdn.net/lmy_520/article/details/128686434?utm_source=csdn_ai_ada_blog_reply2

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。