Transformer Decoder的输入

可keke

已于 2023-12-18 20:40:01 修改

阅读量1.7k

点赞数 18

分类专栏： ML&DL 文章标签： deep learning

于 2023-12-18 20:24:31 首次发布

本文链接：https://blog.csdn.net/qq_44722189/article/details/135065909

版权

23 篇文章 0 订阅

订阅专栏

大部分引用参考了既安的https://www.zhihu.com/question/337886108/answer/893002189这篇文章，个人认为写的很清晰，此外补充了一些自己的笔记。

弄清楚Decoder的输入输出，关键在于图示三个箭头的位置：

在这里插入图片描述

以翻译为例：

因为输入（“我爱中国”）在Encoder中进行了编码，这里我们具体讨论Decoder的操作，也就是如何得到输出（“I Love China”）的过程。

Time Step 1

Time Step 2

Time Step 3

在这里插入图片描述

在这里插入图片描述

论文在Decoder的输入上，对Outputs有Shifted Right操作。

Shifted Right 实质上是给输出添加起始符/结束符，方便预测第一个Token/结束预测过程。

正常的输出序列位置关系如下：

但在执行的过程中，我们在初始输出中添加了起始符，相当于将输出整体右移一位（Shifted Right），所以输出序列变成如下情况：

这样我们就可以通过起始符预测“I”，也就是通过起始符预测实际的第一个输出。

在这里插入图片描述
Transformer中Decoders也是 N=6 层，通过上图我们可以看到每层 Decoder 包括 3 个 sub-layers：

第一个 sub-layer是 Masked Multi-Head Self-Attention，这个层的输入是：
前一时刻Decoder输入+前一时刻Decoder的预测结果 + Positional Encoding。
第二个sub-layer是Encoder-Decoder Multi-Head Attention，这个层的输入是：
Encoder Embedding+上层输出。
也就是在这个层中：
Q是Decoder的上层输出（即Masked Multi-Head Self-Attention的输出）
K\V是Encoder的最终输出
tips：这个层不是Self-Attention，K=V!=Q（等号是同源的意思）。
第三个 sub-layer 是前馈神经网络层，与 Encoder 相同。

Transformer Decoder的输入：

关注