Tencent Neural Machine Translation Systems for the WMT20 News Translation Task

最新推荐文章于 2022-07-17 11:16:02 发布

QingerBig

最新推荐文章于 2022-07-17 11:16:02 发布

阅读量495

点赞数

分类专栏： NMT论文笔记文章标签： nlp 机器翻译

本文链接：https://blog.csdn.net/QingerBig/article/details/114791512

版权

NMT论文笔记专栏收录该内容

8 篇文章 0 订阅

订阅专栏

本文主要介绍了WMT2020中腾讯所使用的NMT系统。该系统被应用于英中、中英、英德翻译任务上。在本系统中较为核心的技术为深层Transformer及数据增强等技术。作者主要提出了一种改进单一模型的增强域内微调方法。在ensemble方法方面，作者提出了一种iterative transductive的ensemble方法，可以在集成模型的基础上，进一步提高模型性能。
作者在实践中发现领域内的微调是一种十分有效的方法，于是作者提出了一种增强微调（boosted finetuning）的方法对于英中和中英任务。
对于英中与中英任务，受贪婪搜索的集成算法启发，作者提出了iterative transductive ensemble (ITE) method，并将其应用于ensemble后的模型翻译结果。
对于英德翻译任务，作者使用了噪声信道模型对结果进行rerank。

System

Model Architecture

Deep Model，如DLCL网络等，模型的深度被设置为40。
Hybrid Model ，下5⃣️层应用双向的ON-LSTM网络。
BigDeep Model，在Transformer-Big模型的基础上，将模型深度加深至20层。
Larger Transformer，与BigDeep类似，但其FFN维度为8192。

R2L Training

其主要思想是将从右到左(R2L)模型的信息集成到从左到右(L2R)模型中。在此基础上，作者分别使用R2L模型和L2R模型对并行数据的源句子进行翻译，并使用翻译后的伪语料对L2R模型进行改进。如果BLEU分数低于15，作者会将删除伪并行数据。这三个任务都应用了这种方法。

FineTuning

对于中英模型，作者合并WMT2017以及WMT2018的测试数据作为领域内数据，对于已经训练好的NMT模型，作者将其在上述的领域内数据进行微调，并在WMT2019上进行测试，实现了4-5个BLEU的提升。
对于英中模型，作者使用WMT2017的验证集数据、WMT2017的测试集以及WMT2018的测试集作为领域内数据。当对模型进行微调时，作者固定学习率为8e-5，并设置batch size为1024，整个finetuning过程共更新900步。

reranking

作者使用噪声信道模型作为reranking方法。
作者分别训练了一个source2Target、Target2Source、Target端的语言模型。对于Source2Target，作者使用了四个训练好的模型进行集成，并将beam size设置成25。对于Target2Source模型，作者使用噪声信道模型，将Target转换为Source，并将Transformer-Big模型作为基础模型。对于语言模型，作者使用GPT-2模型，其FFN维度设置为8192。