Transformer论文详解,论文完整翻译(一)
概要
重要的序列转换模型基于复杂的CNN或者RNN进行encoder和decoder。同时最好的模型也使用了attention连接encoder和decoder。我们提出一个新的网络结构,Transformer,完全使用attention,摒弃了RNN和CNN。两个机器翻译任务上的实验表现出了优秀的实验结果,同时包括了更多的并行操作,只需要更短的训练时间。我们的模型在’英译德‘2014 WMT翻译任务上达到了28.4的BLEU值,超过了包括联合模型的最好结果大于2个BLUE值。在‘英译法’2014 WMT翻译任务上,我们的模型通过3.5天8个GPU的训练,取得了最好的结果41.8个BLEU值,通过小的训练开销训练出了最好的模型。我们通过Transformer成功支持了英文成分分析任务(包括大规模训练集和有限规模训练集)展示出了Transformer也能更好的应用于其他任务中。
(本人总结,请勿转载)