关于transformer decoder和RNN(or LSTM)decoder的input的疑问

《RNN模型与NLP应用(7):机器翻译与Seq2Seq模型》里,在training阶段RNN-decoder的输入是为什么能是variable length(x’_1:t, 即已生成的话,t是已生成的单词数)的呢?同样的,在《transformer(2)》transformer decoder里,输入也是x’_1:t,每次把已生成的单词加入输入的话,那经过多头self attention层得到的c_1:t和经过多头attention层得到的z_1:t都需要重新计算吗?

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值