【2025年即插即用】清华大学：用线性注意力实现Mamba并超越Mamba！

AI缝合术

已于 2025-03-12 13:52:25 修改

阅读量2.2k

点赞数 41

分类专栏： 2025年AI即插即用模块文章标签： pytorch 深度学习人工智能自然语言处理计算机视觉目标检测图像处理

于 2025-03-12 13:32:12 首次发布

本文链接：https://blog.csdn.net/qq_43303160/article/details/146202858

版权

2025年AI即插即用模块专栏收录该内容

16 篇文章

订阅专栏

一、论文信息

论文题目：Demystify Mamba in Vision: A Linear Attention Perspective

中文题目：在视觉中揭开Mamba的神秘面纱：一种线性注意力视角

论文链接：https://arxiv.org/pdf/2405.16605

官方github：https://github.com/LeapLabTHU/MLLA

所属机构：清华大学，阿里巴巴集团

核心速览：本文揭示了Mamba模型与线性注意力Transformer之间的密切关系，并通过理论和实证分析，探讨了Mamba成功的关键因素。研究发现，Mamba模型在视觉任务中表现出色，主要归功于其遗忘门和块设计。基于这些发现，提出了Mamba Inspired Linear Attention（MILA,代码中命名为MLLA）模型，该模型在图像分类和高分辨率密集预测任务中均超越了现有的视觉Mamba模型。

二、论文概要

图4：（a）输入门值分布的可视化。（b）不同层中遗忘门值的平均值。（c）不同遗忘门值的衰减效应。

1. 研究背景:

研究问题：Mamba模型为何能在处理高分辨率输入的视觉任务中表现出色？它与性能较差的线性注意力Transformer有何相似之处和不同之处？
研究难点：理解Mamba模型的成功因素，特别是其与线性注意力Transformer之间的关系，以及如何将这些因素应用到线性注意力Transformer中以提升其性能。
文献综述：文章回顾了Transformer和注意力机制在视觉任务中的应用，指出了Softmax注意力的二次复杂度在处理高分辨率图像时的局限性。同时，介绍了线性注意力作为一种具有线性复杂度的替代方案，以及Mamba模型在有效序列建模方面的潜力。此外，还探讨了其他研究者如何尝试将Mamba应用于视觉任务，并分析了Mamba模型在视觉任务中的应用前景。

2. 本文贡献:

Mamba模型与线性注意力Transformer的关系：研究揭示了Mamba模型与线性注意力Transformer之间的密切关系，将Mamba重新表述为线性注意力Transformer的一个变体，并指出了六个主要区别：输入门、遗忘门、快捷连接、无注意力归一化、单头和修改后的块设计。
核心操作的解释：通过将选择性状态空间模型（SSM）与线性注意力公式统一表述，发现SSM类似于单头线性注意力，但增加了输入门、遗忘门和快捷连接，同时省略了归一化和多头设计。
宏观架构设计分析：现代线性注意力Transformer模型通常采用线性注意力子块和MLP子块的块设计。Mamba通过结合H3和门控注意力等基本设计，修改了块设计，形成了更有效的架构。
MILA模型的创新：基于Mamba模型的核心设计，提出了MILA模型，该模型在多个视觉任务中均表现出色，证明了线性注意力Transformer通过集成Mamba模型的关键设计可以超越Mamba模型本身。

三、创新方法