以翻译为例:
- 输入:我爱中国
- 输出: I Love China
因为输入(“我爱中国”)在Encoder中进行了编码,这里我们具体讨论Decoder的操作,也就是如何得到输出(“L Love China”)的过程。
中间输入:(“我爱中国”)在Encoder中编码结果,(我爱中国)Encoder Embedding
Decoder执行步骤
Time Step 1
-
- 初始输入: 起始符</s> + Positional Encoding(位置编码)
- 中间输入:(我爱中国)Encoder Embedding
- 最终输出:产生预测“I”
Time Step 2
-
- 初始输入:起始符</s> + “I”+ Positonal Encoding
- 中间输入:(我爱中国)Encoder Embedding
- 最终输出:产生预测“Love”
Time Step 3
-
- 初始输入:起始符</s> + “I”+ “Love”+ Positonal Encoding
- 中间输入:(我爱中国)Encoder Embedding
- 最终输出:产生预测“China
作者:既安
链接:https://www.zhihu.com/question/337886108/answer/893002189
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。
在Decode的Multi-head attention模块中,由中间输入M(我爱中国)Encoder Embedding生成(K,V),由初始输入生成Q