一、Transformer博客推荐
Transformer源于谷歌公司2017年发表的文章Attention is all you need,Jay Alammar在博客上对文章做了很好的总结:
英文版:The Illustrated Transformer
CSDN上又博主(于建民)对其进行了很好的中文翻译:
中文版:The Illustrated Transformer【译】
Google AI blog写的一篇简述可以作为科普文:
Transformer: A Novel Neural Network Architecture for Language Understanding
李宏毅老师的Transformer课程
二、Transformer的Encoder
关于Encoder的相关细节,Miguel Romero Calvo的总结博客如下:
Dissecting BERT Part 1: The Encoder
三、Transformer的Decoder
关于Decoder的相关细节(包括如何将Encoder的输入利用到Decoder端),Miguel Romero Calvo的总结博客如下:
Dissecting BERT Appendix: The Decoder
四、Transformer结构及其应用–BERT、GPT
知乎的Ph0en1x在文章中介绍得不错Transformer结构及其应用详解–GPT、BERT、MT-DNN、GPT-2
五、Transformer中的Masked
Trnsformer中的三种Mask详解可以参考如下博文:
Transformer的矩阵维度分析和Mask详解
知乎文章在结尾部分对Padding Mask and Sequence mask进行了简要的介绍。
六、Transformer实现代码
Tensorflow实现:A TensorFlow Implementation of the Transformer
Pytorch实现:Facebook AI Research Sequence-to-Sequence
Harvardnlp: The Annotated Transformer