encoder
eg
decoder 输入包括 encoder的输出,给定一个BEGIN ,一个decoder输出的维度V(机器翻译就是中文字的个数,4、5000)
每个输出送入下一个输入
对比encoder ,结构类似
为masked - multihead attention
即第一个输出b1仅考虑a1,b2仅考虑b1 b2
何时停止?
AT VS NAT
输入某个字符时输出end
NAT:每个输入都为start 找到输出为end的地方,截止
与encoder不同的地方:
交互注意力
训练方法