摘要:主导的序列转导模型基于编码器-解码器配置中的复杂循环或卷积神经网络。性能最佳的模型还通过注意力机制连接编码器和解码器。我们提出了一种新的简单网络架构,即 Transformer,它完全基于注意力机制,完全摒弃了循环和卷积。在两个机器翻译任务上的实验表明,这些模型在质量上优于现有模型,同时更易于并行化,训练时间也显著减少。我们的模型在 WMT 2014 英语-德语翻译任务上取得了 28.4 的 BLEU 分数,超过了现有最佳结果,包括超过 2 BLEU 的集成模型。在 WMT 2014 英语-法语翻译任务上,我们的模型在 8 个 GPU 上训练 3.5 天后,取得了新的单模型最先进的 BLEU 分数 41.0,这只是文献中最佳模型训练成本的一小部分。我们通过成功地将 Transformer 应用于英语成分句法分析(无论是大规模训练数据还是有限训练数据)证明了 Transformer 能够很好地推广到其他任务。作者:Ashish Vaswani、Noam Shazeer、Niki Parmar、Jakob Uszkoreit、Llion Jones、Aidan N. Gomez、Lukasz Kaiser、Illia Polosukhin