注意力是你所需要的一切

YannicKilcher

于 2024-08-09 13:58:03 发布

阅读量391

点赞数 5

文章标签： transformer

本文链接：https://blog.csdn.net/YannicKilcher/article/details/141060417

版权

摘要：主导的序列转导模型基于编码器-解码器配置中的复杂循环或卷积神经网络。性能最佳的模型还通过注意力机制连接编码器和解码器。我们提出了一种新的简单网络架构，即 Transformer，它完全基于注意力机制，完全摒弃了循环和卷积。在两个机器翻译任务上的实验表明，这些模型在质量上优于现有模型，同时更易于并行化，训练时间也显著减少。我们的模型在 WMT 2014 英语-德语翻译任务上取得了 28.4 的 BLEU 分数，超过了现有最佳结果，包括超过 2 BLEU 的集成模型。在 WMT 2014 英语-法语翻译任务上，我们的模型在 8 个 GPU 上训练 3.5 天后，取得了新的单模型最先进的 BLEU 分数 41.0，这只是文献中最佳模型训练成本的一小部分。我们通过成功地将 Transformer 应用于英语成分句法分析（无论是大规模训练数据还是有限训练数据）证明了 Transformer 能够很好地推广到其他任务。作者：Ashish Vaswani、Noam Shazeer、Niki Parmar、Jakob Uszkoreit、Llion Jones、Aidan N. Gomez、Lukasz Kaiser、Illia Polosukhin