Attention is all you need 论文学习
Abstract目前主流的序列转导模型都是基于复杂的递归或卷积神经网络,包含一个编码器和解码器。表现最佳的模型也是通过一个注意力机制,将编码器和解码器联系起来。本文提出了一个新的网络结构,Transformer,只使用了注意力机制,彻底抛弃了递归和卷积操作。在两个机器翻译任务上,实验结果表明这些模型表现非常优异,可以并行计算,大幅度减少了训练时间。在 WMT 2014 英语-德语翻译任务上,该模型取得了 28.4 BLEU 的成绩,提升了现有的最好成绩将近 2 BLEU。在 WMT 2014 英语-法语翻
原创
2021-02-11 01:24:50 ·
157 阅读 ·
1 评论