本文内容主要源于Attention is all you need: https://arxiv.org/abs/1706.03762
由于本人最近在研究文本的判别式模型,如文本分类任务,所以学习了Transformer,并根据自己的理解制作了PPT介绍总结Transformer中几个比较重要的部分.
文章内容为本人制作的PPT,同时在需要解释的slide写上了补充说明;
主要内容包括
1.Transformer的提出背景;
2.Transformer的Encoder(Scaled Dot-Product Attention,Multi-head-Attention)较为详细的图解,部分图引自《Attention is all you need》一文;
3.虽然本人主要是应用于判别式模型,但是最后简单介绍了包含Decoder部分,梳理了Transformer的整个流程;
Slide 1
Slide 2
Slide 3