Mamba VS Transformer，谁主沉浮？

AITIME论道

于 2024-05-08 18:02:37 发布

阅读量4k

点赞数 4

文章标签： transformer 深度学习人工智能

原文链接：https://mp.weixin.qq.com/s?__biz=MzIzOTAxOTk3Nw==&mid=2247524203&idx=1&sn=f468e8d45fb081a12e6736d13008dd97&chksm=e830b20a06f072a947de4117ea764af07150fb42f759847ec7d835d9dd69d9e87fd611d6788b&scene=126&sessionid=0

版权

点击蓝字

关注我们

AI TIME欢迎每一位AI爱好者的加入！

Transformer作为当前序列建模领域的主导模型，取得了巨大的成功。但是，随着技术的发展，一些全新的架构也开始崭露头角，其中最引人注目的便是Mamba。那么，Mamba能否真正颠覆Transformer的地位？它的优势和不足又是什么？2024年4月11日，AI TIME举办的第19期PhD Debate活动邀请了上海交通大学人工智能教育部重点实验室博士生王琦，中国科学院大学机器学习与感知实验室直博生刘悦，清华大学自动化系直博一年级学生苍岳洋，牛津大学计算机系博士生杨毅远。四位嘉宾从多个角度深入探讨这一话题，展开了深入而富有洞见的讨论，为观众带来了一场别开生面的精彩辩论。

Mamba 和 Transformer 有什么相同与不同？

王琦：

Mamba与Transformer相比，两者在训练时都能并行化，但Mamba在推理速度上更快。在推理时，Transformer的计算复杂度在输入序列长度增加时会显著上升，而Mamba的性能在这方面更为稳定。这些特性也在相关文献中得到了证实，显示Mamba具有较低的计算量。

杨毅远：

我主要从时间序列的角度进行分享。尽管Transformer模型在异常检测等任务中表现出色，但近年来，其在时间序列预测中的效率和性能受到了质疑。与此相比，Mamba模型在处理长序列时展现出明显优势，提供了更高的效率和竞争力。传统的、简单的MLP模型因其输入量少且操作简单，可能更受实际应用的青睐。综合考虑，基于Mamba的模型有望在时间序列分析和预测中发挥更大的作用。

苍岳洋：

Mamba模型基于状态空间方程（SSM）构建，它不仅支持Transformer形式，还能转化为类似RNN的结构，表现为线性Transformer而非传统的QK相乘。这种线性复杂度为Mamba带来了吸引力，并可能允许并行训练和高吞吐率。

刘悦：

Mamba和Transformer在基于注意力的框架中发展，但它们选择的结构和发展路径存在差异。Mamba模型可以看作线性注意力机制的一个特例，与Transformer有密切的关系。移除Mamba模型的特定维度后，其结构与线性注意力高度相似。相比之下，Transformer引入了非线性因素，如softmax，这为其处理复杂任务提供了优势，但也可能限制了其在某些情境下的应用。

Mamba 相比 Transformer 的优势在哪里，

其能够全面替代 Transformer 吗？

苍岳洋：

Mamba模型相对于Transformer具有几个优势：首先，它能有效处理长序列，通过引入HiPPO矩阵，既保存前面的信息又融合最近的信息，同时避免了二次复杂度。其次，Mamba计算效率高，既保留了RNN的形式又能转变为线性Transformer形式，使得推理速率提高。然而，RNN被Transformer逐渐取代主要因为RNN在处理长序列和并行计算上的劣势，Mamba通过HiPPO矩阵的研究部分弥补了这些劣势。

然而，Mamba是否能全面替代Transformer仍然是一个未知数。Transformer因其通用性和强大的理解能力而受到广泛应用，而Mamba需要在多个领域，如视觉任务、点云处理和图神经网络上进行进一步验证。因此，Mamba能否达到Transformer的通用性和效率，仍需进一步研究和验证。

杨毅远：

Mamba模型相对于Transformer在时间序列任务中的优势主要体现在计算效率和处理长序列能力上。由于Mamba能够将平方复杂度降低为线性或对数复杂度，它在训练和推理速度上有显著优势。特别是在时间序列预测任务中，Mamba能够更好地捕捉趋势和周期性信息，因此可能能替代Transformer在这一领域的应用。

然而，在时间序列异常检测任务中，Transformer可能更适合于捕捉长距离的相关性和复杂的时间序列模式。Mamba可能在这方面的性能上稍显不足。此外，大型模型结构的应用也提供了一个可能性，即Mamba可以作为一个模块被整合到更复杂的模型中，以提高时间序列分析的效率和准确性。

刘悦：

Mamba与Transformer相比，其优势主要表现为两方面：有代价的优势和无代价的优势。有代价的优势在于计算复杂度的降低，但同时受到因果性的限制。无代价的优势体现在通过控制记忆范围，从而提高模型的泛化能力。在视觉任务中，Mamba展现出良好的泛化性能和扩展性，特别是在分类、检测和分割等任务中。在3D视觉任务中，通过增加扫描方向可以近似解决序列化问题。在多模态应用方面，Mamba处理文本和视频数据时表现出潜在优势。

但是，Mamba要想全面替代Transformer，需要大量的资源投入和市场吸引力。资源投入和吸引力是决定其能否全面替代Transformer的关键因素。

王琦：

首先，尽管Transformer模型的推理是二次时间复杂度，但KV Cache等加速技术已将其优化至线性级别。其次，Mamba模型在多个领域展现出潜在价值，一系列论文已经列举了其在医学影像、视频和时空数据处理等领域的应用。再者，Transformer架构因其在数据量大、模型参数量大的情况下性能会有质的提升而受到推崇。此外，有公司尝试结合Mamba和Transformer，以实现更高的性能和吞吐量。

Mamba在各个领域的应用前景如何？

如何看待现在基于Mamba的图像、视频等方向的变种？

刘悦：AI领域当前正在经历一个研究热潮，而资本对大模型的投资也促进了这一趋势。在工业应用方面，大资本的介入决定了是否能够训练出高性能的模型，进而推动技术的应用。对于开源模型，如LLama，他们的性能表现更为关键，因为它们更易于共享和使用。同时，我赞同一个观点：无论使用哪种模型，数据始终是关键。只有充足的数据，模型才能达到最佳效果。关于图像和视频方向的变种，从研究角度来看，它们为我们提供了更多的研究机会。但在实际应用时，我们需要仔细考虑模型的实际性能，如速度和效率，这对于工业应用至关重要。

苍岳洋：

在多模态应用方面，特别是在视频处理上，Mamba模型表现出色。该模型能够更有效地处理识别信息，并成功地将图像转化为视频序列。目前，多数相关研究仍然基于Mamba的核心架构。关键挑战在于如何将输入信息有效地转化为序列。面对图结构和复杂的网状连接，这一转化过程可能面临一定的难度，需要进一步的深入研究。

王琦：

Mamba提供了一种新的选择，尤其是在降低模型推理时的计算成本方面，这在某些对实时性要求较高的领域中尤为有用。然而，如果在某些领域中对计算成本的要求不高，那么Mamba这种新方法可能并不比传统方法更有优势。

杨毅远：

时间序列数据在维度上有所不同，可能是一维的，如股票或温度数据，也可能是多维的，如物联网中的传感器数据或视频数据。在预测方面，需求也各异，有些应用可能需要预测一个或多个点，这取决于数据的稀疏性和采样频率。

考虑到资源和计算复杂性，传统的Transformer模型可能不适合所有时间序列预测任务。相比之下，由于其低计算复杂性，Mamba模型在资源受限的环境中，如移动设备或IoT设备，可能更有优势。此外，Mamba模型能够捕捉到宏观趋势，对于需要分析宏观和微观波动的应用，如股票预测，可能更为合适。

在把Mamba应用到研究领域的时候，

有哪些要注意的地方？

杨毅远：

Mamba模型的应用需要基于具体需求和数据特性进行合理选择。Mamba模型在处理不同分辨率的时间序列数据中可能具有优势，尤其在高分辨率数据下效果更佳。时间序列研究主要包括预测、异常检测、生成或填补、以及分类和回归。Mamba模型在处理长输入和长周期数据时可能比传统Transformer模型更有效。然而，在资源受限或短输入序列的情况下，传统方法或简化模型可能更适用。在应用Mamba模型时，建议首先找到适合当前领域的有效基线模型，再进行替换和调整。

王琦：

选择合适的基于Transformer的基线模型是将Mamba模型应用到新领域的关键步骤。建议首先找到一个与当前领域相关的基于Transformer的基线模型，因为不同的基线模型可能会对最终结果产生较大影响。如果初始选择的模型在特定任务上表现良好，模型结构设计较好，后续使用Mamba替换Transformer可能相对更容易出效果。

苍岳洋：

在一篇2021的研究中比较了Mamba与MLP在特定序列任务上的表现。尽管该研究发现MLP在该任务上的性能优于Mamba，但后续的研究提出，为了使Mamba模型的性能超越MLP，数据量和序列长度选择都至关重要。数据量应充足，并且序列长度应适合该模型进行处理。如果数据量有限，使用简单的MLP或对于图像任务使用CNN可能更为合适，因为CNN在某些方面具有优势，如位置敏感性。因此，应用Mamba模型到特定研究领域时，必须确保其在数据量和序列长度上具有优势，以达到或超越MLP的性能水平。

刘悦：

我认为硬件与算法的结合在未来的算法设计中是一个值得重视的趋势。首先，硬件加速在算法执行效率上的提升是显著的，特别是在现有硬件架构上的优化设计。例如，GPU在深度学习中的广泛应用，或者特定硬件对某些算法的高效实现。但这也带来了一个公平性问题，即硬件优化的算法与原始算法在性能上的比较可能不够公平。其次，算法设计应更多地考虑到硬件特性，这不仅能够提高算法的执行效率，还能够为长期稳定的应用提供支持。然而，我们必须承认，虽然硬件加速可以显著提高性能，但这并不意味着我们可以忽视算法的效率。因此，未来的算法设计需要在保持高性能的同时，兼顾算法的效率和硬件的兼容性。

通过四位嘉宾精彩的分享和互动，让大家对Mamba的特点、优势以及与Transformer的比较有了更为清晰的认识。无论是支持还是质疑，每一个观点都为我们提供了宝贵的启示，帮助我们更好地理解当前序列建模领域的发展趋势。未来，Mamba与Transformer究竟谁主沉浮，让我们共同期待！

整理：陈研

审核：杨毅远，王琦，苍岳洋，刘悦

往期精彩文章推荐