CV技术指南 | 其实Mamba是一种线性注意力？清华大学黄高团队揭秘开视觉Mamba的真实面目！

本文链接：https://blog.csdn.net/csdn_xmj/article/details/139606044

本文来源公众号“CV技术指南”，仅用于学术分享，侵权删，干货满满。

原文链接：其实Mamba是一种线性注意力？清华大学黄高团队揭秘开视觉Mamba的真实面目！

前言

本文揭示了 Mamba 模型与 Linear Attention Transformer 之间有着惊人的相似之处。作者通过探索 Mamba 和 Linear Transformer 之间的相似性和差异，在本文中提供了一个全面的分析来揭示 Mamba 成功的关键因素。

0 本文目录

1 揭秘视觉 Mamba：一种线性注意力机制视角
(来自清华大学 (黄高团队)，阿里巴巴)
1 MLLA 论文解读
1.1 探索 Mamba 和 Linear Attention Transformer 的关联
1.2 线性注意力与选择性状态空间模型简介
1.3 用统一的视角看待选择性状态空间模型与线性注意力
1.4 关于每个差异的分析
1.5 宏观架构设计
1.6 每种差异的影响和 MLLA 最终方案
1.7 实验结果

太长不看版

Mamba 是一种具有线性计算复杂度的状态空间模型。其最近在处理不同视觉任务的高分辨率输入中展示出很不错的效率。本文揭示了 Mamba 模型与 Linear Attention Transformer 之间有着惊人的相似之处。作者通过探索 Mamba 和 Linear Transformer 之间的相似性和差异，在本文中提供了一个全面的分析来揭示 Mamba 成功的关键因素。

具体而言，作者使用统一的公式重新表述了选择性状态空间模型和线性注意力，将 Mamba 重新表述为 Linear Attention Transformer 的变体。它们主要有6个区别：输入门 (input gate)、遗忘门 (forget gate)、快捷连接 (shortcut)、无注意力归一化、single-head 和修改后的 Block Design。对于每个设计，本文仔细分析了它的优缺点，并实证性地评估了其对视觉模型性能的影响。更有趣的是，遗忘门 (forget gate) 和修改后的 Block Design 是 Mamba 模型成功的核心贡献，而其他的四种设计不太关键。

基于这些发现，作者将这两个比较重要的设计融入 Linear Attention 中，并提出一种类似 Mamba 的线性注意力模型，其在图像分类和高分辨率密集预测任务上都优于视觉 Mamba 模型，同时享受并行化的计算和快速推理。

本文做了哪些具体的工作

揭示了 Mamba 与 Linear Attention Transformer 之间的关系：Mamba 和 Linear Attention Transformer 可以使用一个统一的框架表示。与传统的 Linear Attention 的范式相比，Mamba 有6种不同设计：输入门 (input gate)、遗忘门 (forget gate)、快捷连接 (shortcut)、无注意力的归一化、single-head 和经过修改的 Block Design。
对上述的每一种特殊的设计进行了详细分析，并实证验证了遗忘门 (forget gate) 和 Block Design 很大程度上是 Mamba 性能优越的关键。此外，证明了遗忘门 (forget gate) 的循环计算可能不是视觉模型的理想选择。相反，适当的位置编码可以作为视觉任务中的遗忘门 (forget gate) ，同时保持并行化的计算和快速的推理。