Attention Is All You Need 摘要 主流的序列转换模型基于复杂的encoder-decoder结构的循环或者卷积神经网络。本文提出一个简单的仅基于注意力机制的网络结构,Transformer。完全摆脱了循环和卷积方式。在两个机器翻译任务上的实验结果表明Transformer的翻译质量更佳,并行度更好,需要更短的训练时长。 模型结构 绝大多数具有竞争力的序列转换模型都采用encoder-decoder结构。