大模型中 KV Cache 原理及显存占用分析

最新推荐文章于 2025-03-26 10:19:51 发布

木尧大兄弟

最新推荐文章于 2025-03-26 10:19:51 发布

阅读量5.1k

点赞数 15

分类专栏： ML&DL&NLP 文章标签：人工智能大模型 LLM Attention KV Cache

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/muyao987/article/details/140364179

版权

本文记录大模型推理阶段 KV Cache 的原理及显存占用情况。

Self-Attention 与 KV Cache

如图，当新生成的 token x 进到模型计算 Attention 时，先分别乘上参数矩阵 $W_q$ 、 $W_k$ 、 $W_v$ 得到向量 q，以及矩阵 K、V。然后根据下面公式计算当前 token 跟前面 tokens 的注意力权重（本文为了简化，不考虑多头 MHA）。
在这里插入图片描述
自回归生成过程中，K和V矩阵并没有太大变化，比如下图中 cold 这个词对应了 K 的某一列和 V 的某一行，算完就放那里不再变了。

轮到生成 chill 这个词时，其实只需要在原始 K 矩阵追加一列，原始 V 矩阵追加一行，而没必要每生成一个 token 都重新计算一遍 K、V 矩阵，这便是 KV Cache 的意义。
在这里插入图片描述

因此在推理的时候，不用每次传入前面全部 token 序列的 embedding，而只需传入 KV Cache 以及当前 token x 的 embedding。Transformer 在算完当前 token x 的 Attention 之后，会把新的 K’ 和 V’ 更新到 GPU 显存中。左图中 Masked Multi Self Attention 这块也是唯一和前面序列有交互的模块，其他模块（比如 Layer Norm、FFN、位置编码等）都不涉及跟已生成 token 的交互。
在这里插入图片描述

KV Cache 显存占用分析

KV Cache 显存计算方式如下：

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。