大模型开发 | 掌握Transformer之学习各组件（三）Attention Mask、输出层、计算损失

AI老皮

于 2024-09-30 08:15:00 发布

阅读量520

点赞数 12

文章标签： transformer 学习人工智能大模型 LLM AI大模型 ai

本文链接：https://blog.csdn.net/m0_59614665/article/details/142620376

版权

九、Attention Mask

在计算注意力得分时，注意力模块会执行掩码mask操作。掩码mask有两个目的：

在编码器的自注意力层以及解码器中的交叉注意力层中，掩码mask的作用是将输入句子中存在填充的注意力输出置为零，以确保填充不会影响自注意力。(注：由于输入序列可以是不同长度的，因此会像大多数 NLP处理过程一样，用填充标记对其进行扩展，以便将固定长度的向量输入Transformer）。

在解码器的自注意力层中，掩码mask的作用是防止解码器在预测下一个单词时 "偷看 "目标句子中的其余部分。

解码器处理源序列中的单词，并用它们来预测目标序列中的单词。在训练过程中，解码器通过Teacher Forcing来完成这一工作，将完整的目标序列作为解码器的输入。因此，在预测某个位置的单词时，解码器可以使用该单词之前的目标单词以及该单词之后的目标单词。这使得解码器可以通过使用未来中的目标词来 “作弊”。例如，在预测 "单词 3 "时，解码器只应参考目标词的前 3 个输入词，而不应参考第 4 个单词 “Ketan”。

因此，解码器会屏蔽掉序列中当前需要预测单词后面的输入单词。

在计算注意力分数时（请参阅前面显示计算过程的图片），会在 Softmax 之前对分子进行掩码mask。屏蔽掉的元素（白色方格）被设置为负无穷大，这样 Softmax 就会将这些值变为零。

十、输出层

解码器stack中的最后一个解码器将其输出传递给输出组件，由输出组件将其转换为最终输出句子。

全连接线性层将解码器输出向量投射到单词得分中，目标词汇中的每个单词在句子中的每个位置都有一个得分值。例如，如果我们的最终输出句子有 7 个单词，而目标西班牙语词汇有 10000 个单词，那么我们就会为这 7 个单词中的每个单词生成 10000个分值。这些分值表示词汇中的每个单词在句子该位置出现的可能性。

然后，Softmax 层会将这些分数转化为概率（和加起来为 1.0）。在每个位置上，我们会找到概率最高的单词的索引，然后将该索引映射到词汇表中的相应单词。这些词就构成了Transformer的输出序列。如下所示：