Multi-Head Latent Attention: Boosting Inference Efficiency

连理o

于 2024-08-01 16:17:48 发布

阅读量506

点赞数 4

文章标签： LLM

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42437114/article/details/139041270

版权

模型部署专栏收录该内容

13 篇文章 1 订阅

订阅专栏

Contents

Introduction
Method
- Low-Rank Key-Value Joint Compression
- Decoupled Rotary Position Embedding
References

Introduction

作者提出 Multi-head Latent Attention (MLA)，通过将 KV 压缩为 Compressed Latent KV，在减小 KV cache 的同时保持模型精度

Method

Low-Rank Key-Value Joint Compression

MLA 将 KV vectors $\mathbf{k}_{t},\mathbf{v}_{t}\in\mathbb{R}^{d_{h}n_{h}}$ 压缩为 latent vector $\mathbf{c}_{t}^{KV}\in\mathbb{R}^{d_c}$ ，从而在推理时仅需保存 latent vector $\mathbf{c}_{t}^{KV}$ 而无需保存 KV cache ( $d_c\ll d_hn_h$ ， $d_h$ 为 head dim， $n_h$ 为 #heads)
$\begin{gathered} \mathbf{c}_{t}^{KV} =W^{DKV}\mathbf{h}_{t} \\ \mathbf{k}_{t}^{C} =W^{UK}\mathbf{c}_{t}^{KV} \\ \mathbf{v}_{t}^{C} =W^{UV}\mathbf{c}_{t}^{KV} \end{gathered}$ 其中， $W^{DKV}\in\R^{d_c\times d}$ ， $W^{UK},W^{UV}\in\R^{d_hn_h\times d_c}$ . 这样每个 token 对应的 KV cache 数据量由原来的 $2n_hd_hl$ 降低到了 $d_cl$ ， $l$ 为 Transformer 层数，这样一来，在设计 LLM 架构参数时甚至可以把 $d_h$ 设置得比 $d/h_n$ 更大，这样不仅不会增加 KV cache，还可以进一步提升模型能力
MLA 在推理时无需用 $W^{UK},W^{UV}$ 重新计算出 $\mathbf k_t^C,\mathbf v_t^C$ ，而是将 $W^{UK},W^{UV}$ 分别融到模型权重 $W^Q,W^O$ 里，不会带来额外的推理开销
$\mathbf q_t^T\mathbf k^C_t=(W^Q_{(h)}\mathbf h_t)^T(W^{UK}_{(h)}\mathbf c_t^{KV})=\left(\left(W^{UK}_{(h)}\right)^TW^Q_{(h)}h_t\right)^T\mathbf c_t^{KV}$ $\left(\sum_{j=1}^t\mathbf p_j\mathbf v_j^C\right)^TW^O_{(h)}=\left(\sum_{j=1}^t\mathbf p_jW^{UV}_{(h)}\mathbf c_j^{KV}\right)^TW^O_{(h)}=\left(\sum_{j=1}^t\mathbf p_j\mathbf c_j^{KV}\right)^T\left(W^{UV}_{(h)}\right)^TW^O_{(h)}$ 其中， $W^Q_{(h)},W^O_{(h)}\in\R^{d_h\times d_hn_h}$ ， $W^{UK}_{(h)},W^{UV}_{(h)}\in\R^{d_h\times d_c}$ 为 head $h$ 对应的权重参数

Decoupled Rotary Position Embedding

上述对 KV cache 的低秩压缩无法直接与 RoPE 兼容，因为 RoPE 要给 $\mathbf q,\mathbf k$ 做内积之前进行旋转，这导致 $W^{UK}$ 无法融到 $W^Q$ 里，每次推理时都需要重新从 $\mathbf c^{KV}$ 计算 $\mathbf k$ ，从而增加大量推理开销。为此，MLA 采用 decoupled RoPE，给每个 attn 层额外增加 multi-head queries $\mathbf{q}_{t,i}^{R}\in\mathbb{R}^{d_{h}^{R}}$ 和共享的 key $\mathbf{k}_{t}^{R}\in\mathbb{R}^{d_{h}^{R}}$ 用于存储 RoPE 位置信息，这样只需要同时存储 $\mathbf c^{KV}$ 和 $\mathbf{k}^{R}$ 即可，MLA 所需的 KV cache 数据量增加为 $d_c+d_h^R)l$
$\begin{aligned} [\mathbf{q}_{t,1}^{R};\mathbf{q}_{t,2}^{R};...;\mathbf{q}_{t,n_{h}}^{R}]=\mathbf{q}_{t}^{R}& =\mathrm{RoPE}(W^{QR}\mathbf{h}_{t}), \\ \mathbf{k}_{t}^{R}& =\mathrm{RoPE}(W^{KR}\mathbf{h}_{t}), \\ \mathbf{q}_{t,i}& =[\mathbf{q}_{t,i}^{C};\mathbf{q}_{t,i}^{R}], \\ \mathbf{k}_{t,i}& =[\mathbf{k}_{t,i}^{C};\mathbf{k}_{t}^{R}], \\ \mathbf{o}_{t,i}& =\sum_{j=1}^{t}\mathrm{Softmax}_{j}(\frac{\mathbf{q}_{t,i}^{T}\mathbf{k}_{j,i}}{\sqrt{d_{h}+d_{h}^{R}}})\mathbf{v}_{j,i}^{C}, \\ \mathbf{u}_{t}& =W^{O}[\mathbf{o}_{t,1};\mathbf{o}_{t,2};...;\mathbf{o}_{t,n_{h}}], \end{aligned}$ 其中， $W^{QR}\in\mathbb{R}^{d_{h}^{R}n_{h}\times d},W^{KR}\in\mathbb{R}^{d_{h}^{R}\times d}$

References

DeepSeek-AI, et al. “DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model.” arXiv preprint arXiv:2405.04434 (2024).
苏剑林. (May. 13, 2024). 《缓存与效果的极限拉扯：从MHA、MQA、GQA到MLA 》[Blog post]. Retrieved from https://kexue.fm/archives/10091

关注

4
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
Multi-Head Latent Attention: Boosting Inference Efficiency

Multi-Head Latent Attention: Boosting Inference Efficiency
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。