Tencent Neural Machine Translation Systems for the WMT20 News Translation Task

本文主要介绍了WMT2020中腾讯所使用的NMT系统。该系统被应用于英中、中英、英德翻译任务上。在本系统中较为核心的技术为深层Transformer及数据增强等技术。作者主要提出了一种改进单一模型的增强域内微调方法。在ensemble方法方面,作者提出了一种iterative transductive的ensemble方法,可以在集成模型的基础上,进一步提高模型性能。
作者在实践中发现领域内的微调是一种十分有效的方法,于是作者提出了一种增强微调(boosted finetuning)的方法对于英中和中英任务。
对于英中与中英任务,受贪婪搜索的集成算法启发,作者提出了iterative transductive ensemble (ITE) method,并将其应用于ensemble后的模型翻译结果。
对于英德翻译任务,作者使用了噪声信道模型对结果进行rerank。

System

Model Architecture

  • Deep Model,如DLCL网络等,模型的深度被设置为40。
  • Hybrid Model , 下5⃣️层应用双向的ON-LSTM网络。
  • BigDeep Model,在Transformer-Big模型的基础上,将模型深度加深至20层。
  • Larger Transformer,与BigDeep类似,但其FFN维度为8192。
    在这里插入图片描述

R2L Training

其主要思想是将从右到左(R2L)模型的信息集成到从左到右(L2R)模型中。在此基础上,作者分别使用R2L模型和L2R模型对并行数据的源句子进行翻译,并使用翻译后的伪语料对L2R模型进行改进。如果BLEU分数低于15,作者会将删除伪并行数据。这三个任务都应用了这种方法。

FineTuning

对于中英模型,作者合并WMT2017以及WMT2018的测试数据作为领域内数据,对于已经训练好的NMT模型,作者将其在上述的领域内数据进行微调,并在WMT2019上进行测试,实现了4-5个BLEU的提升。
对于英中模型,作者使用WMT2017的验证集数据、WMT2017的测试集以及WMT2018的测试集作为领域内数据。当对模型进行微调时,作者固定学习率为8e-5,并设置batch size为1024,整个finetuning过程共更新900步。

reranking

作者使用噪声信道模型作为reranking方法。
作者分别训练了一个source2Target、Target2Source、Target端的语言模型。对于Source2Target,作者使用了四个训练好的模型进行集成,并将beam size设置成25。对于Target2Source模型,作者使用噪声信道模型,将Target转换为Source,并将Transformer-Big模型作为基础模型。对于语言模型,作者使用GPT-2模型,其FFN维度设置为8192。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值