这个段落讨论了深度学习中基础模型的最新进展,特别是基于Transformer架构和其核心注意力机制的模型。这些模型现在驱动着大多数令人兴奋的深度学习应用。然而,Transformer在处理长序列时的计算效率问题,促使研究人员开发了许多子二次时间复杂度的架构,如线性注意力、门控卷积和递归模型,以及结构化状态空间模型(SSMs)。尽管这些模型在计算效率上有所改进,但在语言等重要模态上的性能却不如传统的注意力机制。
研究人员发现,这些模型在内容为基础的推理能力上存在关键弱点。为了改善这一点,文章提出了以下几点改进:
-
输入依赖的SSM参数:通过让SSM参数成为输入的函数,解决了这些模型在离散模态(如语言)上的不足。这样一来,模型可以根据当前的token(标记)选择性地传播或遗忘信息,从而在序列长度维度上更有效地处理信息。
-
硬件感知的并行算法:尽管这种改进阻止了使用高效的卷积运算,研究人员设计了一种在递归模式下的硬件感知并行算法,提升了计算效率。
这些选择性SSM被集成到一个简化的端到端神经网络架构中,该架构不依赖注意力机制或MLP块,被称为Mamba。Mamba模型具有以下优势:
- 推理速度快:Mamba的推理速度是Transformer的5倍。
- 序列长度的线性扩展:Mamba在处理长序列时具有线性扩展性。
- 跨模态的领先性能:在语言、音频和基因组学等多个模态上,Mamba达到了最先进的性能。
具体数据举例:
- 在语言建模方面,Mamba-3B模型(拥有30亿参数)在预训练和下游评估中,表现优于同规模的Transformer,并且可以与两倍规模的Transformer媲美。
这些改进展示了Mamba作为通用序列模型骨干的强大性能和高效性,在多个模态上均表现出色。