本文主要介绍了WMT2020中腾讯所使用的NMT系统。该系统被应用于英中、中英、英德翻译任务上。在本系统中较为核心的技术为深层Transformer及数据增强等技术。作者主要提出了一种改进单一模型的增强域内微调方法。在ensemble方法方面,作者提出了一种iterative transductive的ensemble方法,可以在集成模型的基础上,进一步提高模型性能。
作者在实践中发现领域内的微调是一种十分有效的方法,于是作者提出了一种增强微调(boosted finetuning)的方法对于英中和中英任务。
对于英中与中英任务,受贪婪搜索的集成算法启发,作者提出了iterative transductive ensemble (ITE) method,并将其应用于ensemble后的模型翻译结果。
对于英德翻译任务,作者使用了噪声信道模型对结果进行rerank。
System
Model Architecture
- Deep Model,如DLCL网络等,模型的深度被设置为40。
- Hybrid Model , 下5⃣️层应用双向的ON-LSTM网络。
- BigDeep Model,在Transformer-Big模型的基础上,将模型深度加深至20层。
- Larger Transformer,与BigDeep类似,但其FFN维度为8192。
R2L Training
其主要思想是将从右到左(R2L)模型的信息集成到从左到右(L2R)模型中。在此基础上,作者分别使用R2L模型和L2R模型对并行数据的源句子进行翻译,并使用翻译后的伪语料对L2R模型进行改进。如果BLEU分数低于15,作者会将删除伪并行数据。这三个任务都应用了这种方法。
FineTuning
对于中英模型,作者合并WMT2017以及WMT2018的测试数据作为领域内数据,对于已经训练好的NMT模型,作者将其在上述的领域内数据进行微调,并在WMT2019上进行测试,实现了4-5个BLEU的提升。
对于英中模型,作者使用WMT2017的验证集数据、WMT2017的测试集以及WMT2018的测试集作为领域内数据。当对模型进行微调时,作者固定学习率为8e-5,并设置batch size为1024,整个finetuning过程共更新900步。
reranking
作者使用噪声信道模型作为reranking方法。
作者分别训练了一个source2Target、Target2Source、Target端的语言模型。对于Source2Target,作者使用了四个训练好的模型进行集成,并将beam size设置成25。对于Target2Source模型,作者使用噪声信道模型,将Target转换为Source,并将Transformer-Big模型作为基础模型。对于语言模型,作者使用GPT-2模型,其FFN维度设置为8192。