传送门:手把手教你用Pytorch代码实现Transformer模型(超详细的代码解读)
Transformer模型结构图
在Transformer中Decoder会先经过一个masked self-attention层
使用Masked Self-Attention层可以解决下文提到的训练阶段和预测阶段Decoder可能遇到的所有问题。
什么是Masked Self-attention层
你只需要记住:masked self-attention层就是下面的网络连线(如果实现这样的神经元连接,你只要记住一个sequence mask,让右侧的注意力系数 α i