地址:
abstrat
作者在abstract中先是简述了一种传统的翻译模型:encoder and decoder + Attention注意力机制(回顾:Simple to seq2seq And attention | Ripshun Blog),然后引出了他们新的简单网络模型:Transformer,在实验中Transfromer有了很高的表现:
- 28.4BLEU 在WMT2014 English to Germen
- 41.8BLEU 在WMT2014 English to Freach 运行3.5天在8台gpu上
Introduction
在Introduction中作者首先提出了Lstm和GRU(一种门结构的RNN模型)