Transformer---Decoder在训练和推理中的区别

渊兮旷兮

于 2024-07-29 22:28:33 发布

阅读量143

点赞数 4

文章标签： transformer 深度学习人工智能

本文链接：https://blog.csdn.net/qq_40285589/article/details/140707840

版权

一言以蔽之：
Decoder在训练时并行，推理中串行

decoder在训练中，是以实际标签为输入，与masked矩阵结合后并行输入
但是在推理中，我们并不知道真实值是什么，那么我们只能串行运行。

对于整个embed层有两个特殊符号 SOS（start of sentence）和EOS（end of sentence），有些地方叫法可能不同，我更习惯这样称呼理解万岁。

这是两个人为设定的特殊符号，我们可以把他看做某个特殊的标点符号，在训练的过程中，模型会学习到当我预测出EOS的时候，我就不需要进行之后的预测了（也就是后面对应的字符应该是空），前文+SOS就能预测出我们需要的第一个字符。

在训练时，我们已知了标签，所以可以通过mask的技术来将一整个(max_len,d_embed)的矩阵喂给模型，但是在推理中，我们无法得知真值，所以只能串行投喂（这也是为什么比较早期的大模型输出都是一个字一个字蹦出来的）。
ps:推理的投喂依然是(max_len,d_embed)，直接看例子吧
1.output_embed(0) = EOS对应的(1,d_embed)编码，其余1到(max_len-1)都为0 预测 a
2.out(0) = EOS ,out(1) = a ,其余2 到(max_len - 1)为0以此类推

解码层的功能是预测新的内容
ps:bert中直接ban掉了encoder，是因为bert模型主要是用于理解文本上下文语义以及句子与句子之间的关系，并不是需要生成新的长句，这也是为什么bert的应用及其广泛(上下文可以是文字，可以是像素，可以是信号可以是任何有位置时序信息的数据)。

渊兮旷兮

关注

4
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
Transformer---Decoder在训练和推理中的区别

在训练时，我们已知了标签，所以可以通过mask的技术来将一整个(max_len,d_embed)的矩阵喂给模型，但是在推理中，我们无法得知真值，所以只能串行投喂（这也是为什么比较早期的大模型输出都是一个字一个字蹦出来的）。这是两个人为设定的特殊符号，我们可以把他看做某个特殊的标点符号，在训练的过程中，模型会学习到当我预测出EOS的时候，我就不需要进行之后的预测了（也就是后面对应的字符应该是空），前文+SOS就能预测出我们需要的第一个字符。但是在推理中，我们并不知道真实值是什么，那么我们只能串行运行。
复制链接

扫一扫