Transformer翻译模型Decoder详解(Masking)
写这个博客的原因在于:大部分解释Transformer的文章都只注重讲解Encoder部分,在Encoder中又侧重讲解self-attention原理。为了读者更好地理解整个Transformer的训练过程,我决定结合代码写一篇在理解了Encoder部分怎么理解Decoder模块的博文。参考文章:https://jalammar.github.io/illustrated-transforme...
原创
2020-02-11 18:16:04 ·
9468 阅读 ·
1 评论