【llm对话系统】大模型源码分析之llama kv cache缓存逻辑

kakaZhui

已于 2025-03-24 18:03:04 修改

阅读量1.5k

点赞数 28

分类专栏： DeepSeek前线：解密前沿LLM技术+小白入门文章标签： llama 人工智能 python AIGC chatgpt

于 2025-01-30 11:30:00 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/kakaZhui/article/details/145393435

版权

在大型语言模型（LLM）的推理过程中，为了提高生成速度，通常会采用一种名为 KV Cache 的优化技术。KV Cache 可以缓存中间计算结果，避免重复计算，从而显著提升推理效率。本文将深入探讨 LLaMA 模型中 KV Cache 的实现逻辑，包括训练和推理阶段的具体操作。

1. 什么是 KV Cache

1.1 为什么需要 KV Cache

在自回归模型中，模型会逐词生成文本。每生成一个新词，都需要进行一次完整的 Transformer 前向计算，包括计算注意力权重。然而，对于已经生成的词，它们的 Key (K) 和 Value (V) 向量在计算注意力时会被重复使用。

KV Cache 的作用就是缓存已经计算过的 Key 和 Value 向量，当生成新的词时，只需要计算新的 Query 向量，并使用缓存的 K 和 V 向量进行注意力计算，从而避免了对整个序列的重复计算。

1.2 KV Cache 的工作原理

具体来说，KV Cache 会缓存每一层 Transformer 编码器或解码器中的 K 和 V 向量。在推理过程中：

首次计算： 模型会计算完整输入序列的 K、V 和

了解本专栏

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

kakaZhui 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。