【LLM】大模型推理加速 KV-Cache

最新推荐文章于 2024-07-30 23:45:39 发布

kaka0010

最新推荐文章于 2024-07-30 23:45:39 发布

阅读量1.5k

点赞数 20

分类专栏： MLLM & LLM 文章标签： python 语言模型 nlp

本文链接：https://blog.csdn.net/kaka03200/article/details/137018327

版权

3 篇文章 0 订阅

订阅专栏

本文详细解释了Transformer模型推理过程中如何利用KVCache来加速计算，特别是针对TokenEmbedding的重复部分。KVCache通过存储中间计算结果，减少每次生成新Token时的计算量，介绍了三种存储方案，包括最大容量缓冲、动态分配和PageAttention技术。

摘要由CSDN通过智能技术生成

模型推理过程

在了解KVCache之前，我们需要知道Transformer类大模型的推理过程。
对于LLM进行一次前向传播也就是生成一个token的过程可以被分解成以下步骤：

文本 $T_{input}$ 经过Tokenizer后得到n个Token，即 ${T_1,T_2,...,T_n\}$
Token经过嵌入层后得到Token Embedding ${x_1^0,x_i^0,...,x_n^0\}$ ，其中0代表第0层， $x$ 是D维向量
Token Embedding 经过L层变换之后，得到 ${x_1^L,x_i^L,...,x_n^L\}$
generation阶段，将最后一层的最后一个Token Embedding即 $x_n^L$ 取出，与lm_head中的vocabulary Embedding ${e_1,e_2,...,e_V\}$ 进行运算，得到概率 ${p_1,p_2,...,p_V\}$ ，最后从概率采样中选择一个产生新的 $T_{n+1}$

流程如图所示
在这里插入图片描述
如果我们一直用 $T_{[1,i]}$ 去生成 $T_{i+1}$ 也是可行的，但很容易发现一个问题，Token Embedding中 $[1, i]$ 这部分的值是不需要重新计算的。

我们发现每次计算 $T_{i+1}$ 时，只需要额外计算 $x_{i}^{0...L}$ 的值就可以了。

在这里插入图片描述

当我们有了 ${x_1^l,x_2^l,...,x_n^l\}$ 的数据，再加上新来的 $x_{n+1}^l$ 计算 $x_{n+1}^{l+1}$ 的计算量只是一次attention query。

我们只关注 $x_{n+1}^{l+1}$ ：
$s_i = (W_Qx_{n+1}^l)^T(W_Kx_i^l),1≤i≤n+1$

$y_h=\sum_{i=1}^{n+1}\frac{s_i}{\sum_{j=1}^{n+1}e_j}W_Vx_i^l,1≤i≤n+1$

$x_{n+1}^{l+1}=Concat_{1}^Hy_h$

其中 $W_{Q/K/V}$ 是QKV的投影矩阵，H是多头自注意力中head的个数。中间省略了dot product、layernorm、feed forward等步骤。

过程如图片所示。图片来源
在这里插入图片描述
在每次计算过程中得到的中间值 $W_Kx_{i}^l$ 和 $W_Vx_{i}^l$ ，将它们保存下来，就得到了K Cache和V Cache。

KV Cache的总大小是2nHD，其中n是token数量，H是head数量，D是 $x_i^l$ 的维度。
目前有三种解决方案：

最后一种方式也就是现在常用的PageAttention，也是vllm的核心技术。

关注

专栏目录