- 解码器块的结构会重复多次,其中每个解码器块都有一个掩码多头子注意力层。每一个解码器都要对上一个解码器的未来输出(当前时间步之后的数据)进行掩码。保证之后时间步的数据一直不会被泄露
- 在解码器的训练阶段,网络中数据是以多时间步进行传输的。不同时间步的区别在于查询向量的不同和掩码不同,所有的时间步最后将生成一整个句子,其中逐位置的前馈神经网络也可以理解为逐时间步的前馈神经网络。
- 而在解码器的预测阶段,解码器每次只输入上一个时间步的单词。我们知道在训练阶段解码器不光知道前一个时间步的值,同时还能获取该位置之前所有时间步的信息。为了保证一致性,解码器是会保存过去时间步输入的信息的,这些信息是我们能参考的信息。在对当前时间步的数据进行预测时,解码器会将过去时间步的数据与当前时间步的输入进行拼接共同输入到解码器块中。
Transformer模型Decoder部分的几个容易忽略的点
最新推荐文章于 2024-09-15 18:10:00 发布