HW-TSC’s Participation in the WMT 2020 News Translation Shared Task

最新推荐文章于 2024-05-29 11:04:19 发布

QingerBig

最新推荐文章于 2024-05-29 11:04:19 发布

阅读量474

点赞数

分类专栏： NMT论文笔记文章标签： nlp 机器翻译

本文链接：https://blog.csdn.net/QingerBig/article/details/114829866

版权

NMT论文笔记专栏收录该内容

8 篇文章 0 订阅

订阅专栏

本文作者主要介绍了华为参加WMT2020所使用的系统。
在模型方面，作者使用Transformer-Big作为基线模型，在模型性能方面，作者也使用了较为常用的训练策略，如反译、集成知识蒸馏等手段。
作者主要参加了三组语言六个方向的翻译测试，分别是：中英、高棉语英语、普什图语英语。对于每一个语言对，作者都应用了多步细粒度的数据清洗方法，保证只有高质量的数据子集被用于模型的训练。

Data

Data source（Zh/En）

对于双语数据，作者合并了CCMT、Wiki Titles V1、News Commentary V15以及UN Parallel Corpus的子集作为训练集。同时作者也选择了10M的中英单语数据作为反译的数据源。

Data Pre-processing

对于Zh/En数据，作者使用了如下的预处理步骤：

对于中文数据，作者使用Jieba分词工具对训练数据进行分词，并使用BPE（merge操作为30K）进行子词切分。
对于英文数据，作者使用Moses作为序列化工具并使用BPE算法（merge操作为32K）进行子词切分。
作者移除了长度比大于3的训练句对（源语/目标语）。
移除文本长度超过120个子词的训练句对。
带有不需要的fastText-langid的文本将被删除。

Data Selection

该部分主要作用为，将非领域内的训练数据进行过滤。为了解决这个问题，作者训练了一个分类器，该分类器用于挑选该文本是否属于新闻领域。
作者发现，通过数据过滤可以有效的增强模型的性能。对于英中，数据选择提升了1.6分；对于中英，数据选择提升了1.1分。

System

Model

在模型方面，作者选用了Transformer-Big作为基线模型，同时，作者也考虑了另外的两个模型，分别为更宽的FFN和更深的Transformer。作者的模型实现基于THUMT，硬件环境为8张Nvidia V100 GPU。

Back Translation

为了获得更好的单语数据，作者使用了在数据过滤时的方法，通过此方法为back translation选出质量更好的数据。对于中英双向翻译，作者将训练集的目标语作为域内数据，将单语数据作为域外数据来训练一个分类器，并应用此分类器，在训练集中选出了大约10M数据对于每个方向。通过这个操作，分别提升了0.6分与1.3分对于中英与英中。