【面试】Decoder阶段的多头自注意力和Encoder的多头自注意力有什么区别？

Lewiz_124

于 2024-09-09 15:17:52 发布

阅读量159

点赞数 2

分类专栏： # AI面试文章标签：人工智能深度学习 transformer 神经网络面试

本文链接：https://blog.csdn.net/Lewiz_124/article/details/142059637

版权

59 篇文章 0 订阅

订阅专栏

面试官提问：Decoder阶段的多头自注意力和Encoder的多头自注意力有什么区别？

面试者回答：

在Transformer模型中，Encoder 和 Decoder 阶段都使用了多头自注意力机制，但它们的具体功能和操作有所不同。特别是在解码阶段，多头自注意力有一些特殊的设计，以适应生成任务的需求。

Encoder的多头自注意力：
- 主要任务是编码输入序列中的信息。Encoder的多头自注意力可以看作是对整个输入序列进行全局依赖建模，它没有任何限制，因此每个词都可以关注序列中的任何位置（包括当前词和之前的词）。
- 主要用于捕捉输入序列中的上下文关系，通过让每个输入词能够与序列中的其他词进行关联，形成更加丰富的上下文表示。
Decoder的多头自注意力：
- Decoder的多头自注意力作用在目标序列（已经生成的部分）上，负责生成输出序列的下一个词。因此，它的任务是根据已经生成的部分来预测下一个词。
- 与Encoder不同，Decoder的自注意力需要加入遮掩机制（masking），以确保生成过程中不会看到未来词（即目标序列中还未生成的词）。这样可以防止在生成时提前利用未来信息，保持生成过程的因果性。

Encoder的多头自注意力没有任何遮掩机制，每个词都可以自由地与其他词进行交互。这是因为编码阶段只需要提取输入序列的全局特征，没有因果顺序的限制。
Decoder的多头自注意力采用了因果遮掩（causal masking），即在计算注意力时，只允许当前词及其之前的词进行交互，而不允许看到之后的词。这种遮掩机制是通过将未生成的词的注意力值设置为负无穷大来实现的，从而使其权重为0。这样可以确保在生成输出序列时，保持顺序性，避免模型在生成某个词时直接访问将来词的信息。

Encoder中的多头自注意力只依赖于输入序列中的信息，不涉及其他模块。
Decoder中的多头自注意力除了自注意力层，还会额外有一个交叉注意力层（cross-attention layer）。这个交叉注意力层的作用是让Decoder可以访问Encoder编码的输入序列的隐藏表示，从而结合输入序列的信息来生成输出序列。这意味着Decoder不仅要关注自身（已生成的部分），还要参考输入序列来做出更加合理的预测。

Encoder的多头自注意力在训练和推理阶段没有区别，因为它总是可以访问整个输入序列。
Decoder的多头自注意力在训练阶段，目标序列是已知的，模型可以并行处理整个序列；但在推理阶段，目标序列是逐步生成的，模型只能依赖已经生成的部分，因此需要依次计算每一个新词的注意力。

关注

专栏目录