序列模型和Attention解读(图解Attention):
最详细的transformer解读(图解transformer):
Jay Alammar: The illustrated Transformerhttps://jalammar.github.io/illustrated-transformer/
哈佛大学编写的极为详细的注解Attention is All You Need,其中使用代码实现了Transformer的每一个关键步骤,值得细品:
Harvard: The Annotated Transformerhttp://nlp.seas.harvard.edu/2018/04/03/attention.html
有大神提供了中文的版本,膜拜!
Transformer的pytorch实现细节解析https://zhuanlan.zhihu.com/p/48731949
最后附上Transformer的pytorch接口定义,开搞!