《RNN模型与NLP应用(7):机器翻译与Seq2Seq模型》里,在training阶段RNN-decoder的输入是为什么能是variable length(x’_1:t, 即已生成的话,t是已生成的单词数)的呢?同样的,在《transformer(2)》transformer decoder里,输入也是x’_1:t,每次把已生成的单词加入输入的话,那经过多头self attention层得到的c_1:t和经过多头attention层得到的z_1:t都需要重新计算吗?
关于transformer decoder和RNN(or LSTM)decoder的input的疑问
最新推荐文章于 2023-07-11 14:09:28 发布