Transformer
论文:https://arxiv.org/abs/1706.03762
代码解析:https://blog.csdn.net/mijiaoxiaosan/article/details/74909076
https://baijiahao.baidu.com/s?id=1622064575970777188&wfr=spider&for=pc
https://www.jianshu.com/p/e7d8caa13b21
https://zhuanlan.zhihu.com/p/44121378
Attention 机制
Encoder-Decoder
https://blog.csdn.net/qq_38906523/article/details/79838000
那么seq2seq又是什么呢?简单的说,就是根据一个输入序列x,来生成另一个输出序列y。seq2seq有很多的应用,例如翻译,文档摘取,问答系统等等。在翻译中,输入序列是待翻译的文本,输出序列是翻译后的文本;在问答系统中,输入序列是提出的问题,而输出序列是答案。
为了解决seq2seq问题,有人提出了encoder-decoder模型,也就是编码-解码模型。所谓编码,就是将输入序列转化成一个固定长度的向量;解码,就是将之前生成的固定向量再转化成输出序列。
https://www.jianshu.com/p/bbba110b5023
https://www.cnblogs.com/wdmx/p/10280753.html