HW-TSC’s Participation in the WMT 2020 News Translation Shared Task

本文作者主要介绍了华为参加WMT2020所使用的系统。
在模型方面,作者使用Transformer-Big作为基线模型,在模型性能方面,作者也使用了较为常用的训练策略,如反译、集成知识蒸馏等手段。
作者主要参加了三组语言六个方向的翻译测试,分别是:中英、高棉语英语、普什图语英语。对于每一个语言对,作者都应用了多步细粒度的数据清洗方法,保证只有高质量的数据子集被用于模型的训练。

Data

Data source(Zh/En)

对于双语数据,作者合并了CCMT、Wiki Titles V1、News Commentary V15以及UN Parallel Corpus的子集作为训练集。同时作者也选择了10M的中英单语数据作为反译的数据源。

Data Pre-processing

对于Zh/En数据,作者使用了如下的预处理步骤:

  • 对于中文数据,作者使用Jieba分词工具对训练数据进行分词,并使用BPE(merge操作为30K)进行子词切分。
  • 对于英文数据,作者使用Moses作为序列化工具并使用BPE算法(merge操作为32K)进行子词切分。
  • 作者移除了长度比大于3的训练句对(源语/目标语)。
  • 移除文本长度超过120个子词的训练句对。
  • 带有不需要的fastText-langid的文本将被删除。

Data Selection

该部分主要作用为,将非领域内的训练数据进行过滤。为了解决这个问题,作者训练了一个分类器,该分类器用于挑选该文本是否属于新闻领域。
作者发现,通过数据过滤可以有效的增强模型的性能。对于英中,数据选择提升了1.6分;对于中英,数据选择提升了1.1分。

System

Model

在模型方面,作者选用了Transformer-Big作为基线模型,同时,作者也考虑了另外的两个模型,分别为更宽的FFN和更深的Transformer。作者的模型实现基于THUMT,硬件环境为8张Nvidia V100 GPU。

Back Translation

为了获得更好的单语数据,作者使用了在数据过滤时的方法,通过此方法为back translation选出质量更好的数据。对于中英双向翻译,作者将训练集的目标语作为域内数据,将单语数据作为域外数据来训练一个分类器,并应用此分类器,在训练集中选出了大约10M数据对于每个方向。通过这个操作,分别提升了0.6分与1.3分对于中英与英中。

Ensemble Knowledge Distillation

Ensemble KD通过集成一系列teacher模型来训练一个单独的student模型。相较于其他的软标签蒸馏技术,EKD来得更加直接,EKD通过学习源语与teacher模型的输出来获得性能的提升。作者保留了翻译模型前2/3的句子,并将它们加入训练集参与接下来的训练。

Forward Translation

来自源语言的单语数据,也可通过Forward translation来进行伪数据的增强。其步骤主要分为以下四步:1、训练Model M在两个方向上。2、通过模型M将单语数据生成伪数据。3、合并数据。4、在混合数据上训练模型。

Fine-tuning

作者使用newstest作为数据对模型进行微调。

Ensemble

作者训练了多个模型,包括2个deep模型,2个Big模型,2个Large variants模型
在这里插入图片描述
特别说明的是,作者并没有使用reranking方法,作者从实验中观测到reranking并没有对模型性能带来提升。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值