江大白 | 力压Transformer算法？首篇Mamba综述来了！（附论文及源码）

最新推荐文章于 2025-03-10 17:21:09 发布

双木的木

最新推荐文章于 2025-03-10 17:21:09 发布

阅读量1.6w

点赞数 36

分类专栏：深度学习拓展阅读 Transformer专栏文章标签： transformer 算法深度学习人工智能 python 计算机视觉 mamba

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/csdn_xmj/article/details/138869266

版权

本文来源公众号“江大白”，仅用于学术分享，侵权删，干货满满。

原文链接：力压Transformer算法？首篇Mamba综述来了！（附论文及源码）

以下文章来源于微信公众号：自动驾驶之心

作者：Rui Xu

链接：https://mp.weixin.qq.com/s/gC2-hfcMM_BCnjWMuJCjyQ

0 导读

最近 Mamba 架构在学术圈引起了广泛关注。不少文章编写Mamba 将会把 Transformer 拉下神坛，将取代 Transformer。本文将详细解读下 Mamba 架构及其综述。

1 写在前面&笔者的个人理解

Mamba是一种新的选择性结构状态空间模型，在长序列建模任务中表现出色。Mamba通过全局感受野和动态加权，缓解了卷积神经网络的建模约束，并提供了类似于Transformers的高级建模能力。至关重要的是，它实现了这一点，而不会产生通常与Transformer相关的二次计算复杂性。由于其相对于前两种主流基础模型的优势，曼巴展示了其作为视觉基础模型的巨大潜力。研究人员正在积极地将曼巴应用于各种计算机视觉任务，导致了许多新兴的工作。

为了跟上计算机视觉的快速发展，本文旨在对视觉曼巴方法进行全面综述。本文首先描述了原始曼巴模型的公式。随后，我们对视觉曼巴的综述深入研究了几个具有代表性的骨干网络，以阐明视觉曼巴中的核心见解。然后，我们使用不同的模式对相关作品进行分类，包括图像、视频、点云、多模态等。具体来说，对于图像应用程序，我们将它们进一步组织成不同的任务，以促进更结构化的讨论。最后，我们讨论了视觉曼巴的挑战和未来的研究方向，为这个快速发展的领域的未来研究提供了见解。

代码链接：https://github.com/Ruixxxx/Awesome-Vision-Mamba-Models

论文链接：https://export.arxiv.org/pdf/2404.18861

总结来说，本文的主要贡献如下：

曼巴的形成：本文提供了曼巴和状态空间模型的操作原理的介绍性概述。
主干网络：我们提供了几个具有代表性的视觉曼巴骨干网络的详细检查。本分析旨在阐明支撑Visual Mamba框架的核心原则和创新。
应用：我们根据不同的模态对曼巴的其他应用进行分类，如图像、视频、点云、多模态数据等。深入探讨了每个类别，以突出曼巴框架如何适应每种模态并使其受益。对于涉及图像的应用，我们进一步将其划分为各种任务，包括但不限于分类、检测和分割。
挑战：我们通过分析视觉数据的独特特征、算法的潜在机制以及现实世界应用程序的实际问题，来研究与CV相关的挑战。
未来方向：我们探索视觉曼巴的未来研究方向，重点关注数据利用和算法开发方面的潜在进展。

2 Mamba公式

Mamba是最近的一个序列模型，旨在通过简单地将其参数作为输入的函数来提高SSM基于上下文的推理能力。这里的SSM特别指的是结构化状态空间序列模型（S4）中使用的序列变换，它可以被纳入深度神经网络。Mamba简化了常用的SSM块，形成了简化的SSM架构。在下文中，我们将详细阐述曼巴的核心概念。

2.1 SSM

2.2 Selective SSM

2.3 Mamba结构

最低0.47元/天解锁文章

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。