Transformer中的attention区别?
(1) Encoder的Self-Attention中,Q、K、V相等,他们是上一层Encoder的输出,对于第一层Encoder,他们就是Word Embedding和Positional Embedding相加得到的输入
(2) Decoder的Self-Attention 中,Q、K、V相等,它们是上一层 Decoder 的输出,对于第一层Decoder,他们就是Word Embedding和Positional Embedding相加得到的输入
(3) 在Encoder-Decoder Attention中,Q来自于上一层Decoder的输出,K和V来自于 Encoder的输出
https://blog.csdn.net/weixin_45069761/article/details/107851875