如何理解transformer中mask多头注意力机制 -masked multi-head attention 详解

德国Viviane

已于 2023-10-27 10:24:45 修改

阅读量2.8k

点赞数 5

文章标签： transformer 深度学习人工智能

于 2023-10-27 10:24:16 首次发布

本文链接：https://blog.csdn.net/Viviane_2022/article/details/134070557

版权

1.masked multi-head attention用来干什么？作用是啥？

一句话，需要mask掩码来实现并行训练。

2. 那并行化有什么用?

可以用来加速模型的训练过程。

举个栗子。

假设我们要训练一个翻译模型，将英文"I love you"翻译成德文"Ich liebe dich"。编码器以并行模式工作 - 它可以在恒定数量的步骤内生成输入序列("I love you")的向量表示（步骤的数量不取决于输入序列的长度）。

假设编码器生成了向量表示为11、12、13（分别代表I love you，实际上，这些向量会更长，因为我们忽略了其它标记，如-序列的开始、-序列的结束等），但为简单起见，我们使用了短向量。

在训练期间，我们知道I love you翻译成德语，应该是"Ich liebe dich"（在训练期间我们总是知道期望的输出，也就是监督学习）。假设"Ich liebe dich"这些词的向量表示是21、22、23。

I love you

11、12、13

Ich liebe dich

21、22、23

如果我们使解码器的训练在顺序模式下进行，它将类似于循环神经网络的训练。将执行以下顺序步骤：

顺序操作 #1. 输入：11, 12, 13。尝试预测21。预测的输出不会完全是21，假设它是21.1。
顺序操作 #2. 输入：11, 12, 13，以及上一个输出21.1。尝试预测22。预测的输出不会完全是22，假设它是22.3。
顺序操作 #3. 输入：11, 12, 13，以及上一个输出22.3。尝试预测23。预测的输出不会完全是23，假设它是23.5。

这意味着我们需要进行3个操作（通常情况下，每个输入需要执行一个操作）。此外，每次迭代都会有累积误差。

此外，我们不使用注意力机制，因为我们只关注单个先前的输出。

由于我们实际上知道期望的输出（是21、22、23），所以我们可以调整这个过程，直接并行化操作输入。而不用等待前一步的输出。