Transformer模型Decoder部分的几个容易忽略的点

  1. 解码器块的结构会重复多次,其中每个解码器块都有一个掩码多头子注意力层。每一个解码器都要对上一个解码器的未来输出(当前时间步之后的数据)进行掩码。保证之后时间步的数据一直不会被泄露
  2. 在解码器的训练阶段,网络中数据是以多时间步进行传输的。不同时间步的区别在于查询向量的不同和掩码不同,所有的时间步最后将生成一整个句子,其中逐位置的前馈神经网络也可以理解为逐时间步的前馈神经网络。
  3. 而在解码器的预测阶段,解码器每次只输入上一个时间步的单词。我们知道在训练阶段解码器不光知道前一个时间步的值,同时还能获取该位置之前所有时间步的信息。为了保证一致性,解码器是会保存过去时间步输入的信息的,这些信息是我们能参考的信息。在对当前时间步的数据进行预测时,解码器会将过去时间步的数据与当前时间步的输入进行拼接共同输入到解码器块中。
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值