江大白 | 视觉Transformer与Mamba的创新改进，完美融合（附论文及源码）

最新推荐文章于 2025-04-21 14:02:04 发布

双木的木

最新推荐文章于 2025-04-21 14:02:04 发布

阅读量4.7k

点赞数 28

分类专栏： Transformer专栏文章标签： transformer 深度学习人工智能 python llama 语言模型

本文链接：https://blog.csdn.net/csdn_xmj/article/details/140501633

版权

本文来源公众号“江大白”，仅用于学术分享，侵权删，干货满满。

原文链接：视觉Transformer与Mamba的创新改进，完美融合（附论文及源码）

以下文章来源于微信公众号：AI视界引擎

作者：AI引擎

链接：https://mp.weixin.qq.com/s/nVRA0JlkOmSUXpaub1VPTg

本文仅用于学术分享，如有侵权，请联系后台作删文处理

导读

最近，一种基于状态空间结构的Mamba模型在学术届爆火，该模型实现了线性时间复杂度，并在不同建模任务中优于或匹配Transformers。为了提升长距离空间依赖关系的建模能力，作者提出混合Mamba-Transformer架构(MambaVision)。实验表明，该模型在ImageNet-1K、MS COCO和ADE20K数据集上达到了最先进的SOTA性能！

论文链接：https://arxiv.org/abs/2407.08083

代码链接：https://github.com/NVlabs/MambaVision

作者提出了一种新颖的混合Mamba-Transformer架构，称为MambaVision，这是专门为视觉应用量身定制的。作者的核心贡献包括重新设计Mamba公式，以增强其高效建模视觉特征的能力。

此外，作者还对将视觉Transformer（ViT）与Mamba集成的可行性进行了全面的消融研究。

作者的结果表明，在Mamba架构的最后几层配备几个自注意力块，大大提高了捕获长距离空间依赖关系的建模能力。基于作者的发现，作者引入了一系列具有分层架构的MambaVision模型，以满足各种设计标准。

在ImageNet-1K数据集上的图像分类中，MambaVision模型变体在Top-1准确率和图像吞吐量方面达到了新的最先进（SOTA）性能。

在MS COCO和ADE20K数据集上的下游任务，如目标检测、实例分割和语义分割中，MambaVision超越了同等大小的架构，并展示了更优的性能。

代码：https://github.com/NVIabs/MambaVision。

1 Introduction

在近年来，Transformers [1] 已成为包括计算机视觉、自然语言处理、语音处理和机器人技术在内的不同领域的实际架构。此外，Transformer架构的多功能性，主要归功于其注意力机制，以及它的灵活性，使其非常适合多模态学习任务，在这些任务中集成和处理来自不同模态的信息至关重要。尽管这些好处，但注意力机制相对于序列长度的二次复杂度使得Transformers在训练和部署上的计算成本很高。最近，Mamba [2] 提出了一种新的状态空间模型（SSM），该模型具有线性时间复杂度，并在不同的语言建模任务中超越或匹配Transformers [2]。Mamba的核心贡献是一种新颖的选择机制，该机制使得在考虑硬件感知的情况下，能够有效地处理依赖于输入的长序列。

图1：ImageNet-1K数据集上的Top-1准确性与图像吞吐量。所有测量均在A100 GPU上进行，批量大小为128。MambaVision达到了新的SOTA帕累托前沿。