写在前面
大型语言模型 (LLM) 处理长上下文的能力是衡量其智能水平和实用性的关键指标之一。从最初的几千 Tokens 到如今的数十万甚至数百万 Tokens,上下文窗口的扩展一直是 LLM 发展的前沿阵地。然而,标准的 Transformer 注意力机制(Multi-Head Attention, MHA)在处理长序列时面临着计算量和显存占用的平方级增长问题,这成为了制约长上下文能力的主要瓶颈。
为了突破这一瓶颈,各种高效注意力机制应运而生。DeepSeek 团队在其先进的 DeepSeek-V2 模型中,引入了一项名为 MLA (Multi-head Latent Attention) 的关键技术,旨在显著压缩 KV 缓存 (Key-Value Cache),从而以较低的计算和存储成本支持极长的上下文窗口。
MLA 不是简单地替代 MHA,而是作为一种与 MHA 协同工作的机制,通过引入“潜在(Latent)”表示来对历史信息进行高效压缩。那么,MLA 的核心原理是什么?它与 MHA 有何关联与区别?它如何处理长序列