Transformer论文详解,论文完整翻译(一)

Transformer论文详解,论文完整翻译(一)

概要

重要的序列转换模型基于复杂的CNN或者RNN进行encoder和decoder。同时最好的模型也使用了attention连接encoder和decoder。我们提出一个新的网络结构,Transformer,完全使用attention,摒弃了RNN和CNN。两个机器翻译任务上的实验表现出了优秀的实验结果,同时包括了更多的并行操作,只需要更短的训练时间。我们的模型在’英译德‘2014 WMT翻译任务上达到了28.4的BLEU值,超过了包括联合模型的最好结果大于2个BLUE值。在‘英译法’2014 WMT翻译任务上,我们的模型通过3.5天8个GPU的训练,取得了最好的结果41.8个BLEU值,通过小的训练开销训练出了最好的模型。我们通过Transformer成功支持了英文成分分析任务(包括大规模训练集和有限规模训练集)展示出了Transformer也能更好的应用于其他任务中。

(本人总结,请勿转载)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值