大家都知道大模型是通过语言序列预测下一个词的概率。假定{ x 1 x_1 x1, x 2 x_2 x2, x 3 x_3 x3,…, x n − 1 x_{n-1} xn−1}为已知序列,其中 x 1 x_1 x1, x 2 x_2 x2, x 3 x_3 x3,…, x n − 1 x_{n-1} xn−1均为维度是 d m o d e l d_{model} dmodel的向量, q n q_{n} qn、 k n k_{n} kn、 v n v_{n} v<
为什么KV Cache只需缓存K矩阵和V矩阵,无需缓存Q矩阵?
最新推荐文章于 2025-05-24 07:33:02 发布