LLM中的K-V cache

icewithzero

已于 2024-01-18 16:56:07 修改

阅读量1.5k

点赞数 36

文章标签： python 深度学习机器学习 llama

于 2024-01-17 20:45:01 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_42296251/article/details/135659424

版权

K-V cache的原理的学习笔记

首先要明确的一点是K-V cache建立在causal attention的基础之上，即第 $t$ 个token只会与第 $t - i$ 个tokens计算 $Q @ K @ V$ ,这就会出现下图的情况在这里插入图片描述
上述过程用公式表示为：

在这里插入图片描述

可以看到，当新加入token后，其计算结果只和当前token的 $Q K V$ 、历史token的 $K V$ 有关，因此通过将历史token的 $K V$ 保存下来，可以有效降低计算量。
如下图所示：
在这里插入图片描述

参考文献：[1]Transformer推理性能优化技术很重要的一个就是K V cache，能否通俗分析，可以结合代码? - 看图学的回答 - 知乎
 [2]理解 Llama2：KV 缓存、分组查询注意力、旋转嵌入等

关注

36
点赞
踩
24

收藏

觉得还不错? 一键收藏
0
评论
LLM中的K-V cache

K-V cache
复制链接

扫一扫

icewithzero CSDN认证博客专家 CSDN认证企业博客

码龄6年

14: 原创

126万+: 周排名

10万+: 总排名

7128: 访问

: 等级

233: 积分

55: 粉丝

91: 获赞

8: 评论

60: 收藏

私信

关注

热门文章

最新评论

maskrcnn_benchmark 报错 target = target.resize(image.size)---＞‘list‘ object has no attribute ‘resize‘
白馬回故里: 修改之后又报错了， 'Image' object has no attribute 'shape'
vscode配置公钥连接服务器
普通网友: 写的很好！我也写了一篇获取【大厂面试真题解析、核心开发学习笔记、最新全套讲解视频、实战项目源码讲义、学习路线简历模板】的文章
将conda虚拟环境迁移到新的服务器上
CSDN-Ada助手: 恭喜您在博客上发布了新的一篇文章！“将conda虚拟环境迁移到新的服务器上”这个主题非常实用，对很多人来说都会有帮助。接下来，我建议您可以探讨一些关于conda虚拟环境的高级技巧或者与其他工具的整合应用，让读者能够更全面地了解和应用这一技术。期待您的下一篇文章！
vscode配置公钥连接服务器
CSDN-Ada助手: 恭喜您发布了第13篇博客！看到您分享关于vscode配置公钥连接服务器的经验，让我受益匪浅。希望您能继续分享更多有趣且实用的技术内容。或许下一步可以考虑分享一些关于如何优化代码结构或提高编程效率的技巧，期待您的下一篇作品！谢谢您的分享！
服务器配置免密github
CSDN-Ada助手: 恭喜您写了这么有用的博客！配置免密github对于很多人来说可能是一个很实用的技巧。希望您能继续分享更多关于服务器配置以及其他技术方面的内容，让更多人受益。另外，也建议您可以考虑写一些实用性更强的技术教程，或者分享一些个人经验和心得，让读者能够更深入地了解相关知识。期待您的下一篇博客！

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。