有关于decoder中的past_key_values参数

最新推荐文章于 2024-06-29 19:12:40 发布

Reza.

最新推荐文章于 2024-06-29 19:12:40 发布

阅读量3.4k

点赞数 9

分类专栏：深度学习文章标签：人工智能 python 深度学习 pytorch

本文链接：https://blog.csdn.net/weixin_43301333/article/details/128408060

版权

深度学习专栏收录该内容

83 篇文章 23 订阅

订阅专栏

我们都知道，encoder-decoder模型在进行generate的时候，会重复地调用decoder （i.e., auto-regressive）。

也就是，上一个step decoder的预测结果，作为下一个step decoder的输入。

这个时候，由于encoder_output是一模一样的，只不过就是decoder_inputs发生了变化。在进行decoding的时候，K、V就不会有任何数值上的差异，我们就可以直接使用上一个step已经计算好的K、V，而不用再进行重复的encoder_output ==> k_v_states的计算。

所以huggingface decoder的代码，就会传入一个past_key_values参数。在进行第一次decoding的时候（i.e., first pass），会利用k_projector和v_projector把encoder_outputs进行投射，成为k,v向量；之后这两个向量就会在随后的step，作为past_key_values，被重复地利用。
在这里插入图片描述
如下所示，在计算decoder的cross attention的时候，若存在past_key_values，就会直接把past_key_values作为最终的hidden（i.e., k_staes or v_states）

这个道理，其实和重用encoder_output是一样的。关键就在于，模型training的时候，decoder只用forward一次（因为有teacher forcing，提前有了答案）；而testing / generate的时候，decoder会forward多次（因为需要auto-regressively生成tokens），这个时候encoding_output 和上述的 k、v在整个decoding过程中，数值都不会变化（输入没变，模型参数也没变），因此它们就可以直接重用。

不然的话会显著增加testing的时间开销。

具体参见文档：
在这里插入图片描述

Reza.

关注

9
点赞
踩
6

收藏

觉得还不错? 一键收藏
1
评论
有关于decoder中的past_key_values参数

（因为需要auto-regressively生成tokens），这个时候encoding_output 和上述的 k、v在整个decoding过程中，数值都不会变化（输入没变，模型参数也没变），因此它们就可以直接重用。我们都知道，encoder-decoder模型在进行generate的时候，会重复地调用decoder （i.e., auto-regressive）。，我们就可以直接使用上一个step已经计算好的K、V，而不用再进行重复的encoder_output ==> k_v_states的计算。
复制链接

扫一扫