AR: Auto-Repair the Synthetic Data for Neural Machine Translation---ACL 2020

这是一篇应用于机器翻译领域的文章,这篇文章提出来的模型是Auto-Repair(AR),核心目的是对生成的句子进行自动修复。论文篇幅不长,一共只有6页,下面就详细记录一下自己的对论文的翻译以及一点点理解(有待进一步理解模型),附上原文链接:AR: Auto-Repair the Synthetic Data for Neural Machine Translation

目录

1 Introduction

2 Approach

2.1 Background and Notation

2.2 The Proposed AR Framework

3 Experiments

3.1 Implementation Detail

3.2 Experimental Results

3.3 AR Quality Analysis

4 Conclusion


1 Introduction

引言部分主要介绍了目前机器翻译领域面临的问题:数据集不够充分,因为很多机器翻译的数据集是不公开的,那么对NMT研究来说是很不利的。之前也有相关的工作比如通过BT(back-translation 回译)的方法来合成一些“假的”数据,但是合成的数据存在不准确的问题,因此本文提出来的模型是对合成的数据进行自动修复(AR)

2 Approach

这一部分主要介绍了AR模型以及AR模型怎么运用到NMT当中的。

先把本文模型结构图截取出来:

2.1 Background and Notation

首先介绍后面会用到的一些概念:

Sa:真实的源句子

Ta:真实的目标句子

Ss:合成的源句子

Ts: 合成的目标句子

: 双语中的真实源句

: 多语中的真实源句

因为数据来源有双语数据和多语数据,因此采用上标的形式对其进行区分,其中上标b表示双语,上标m表示多语。

图1中左边部分(传统合成过程)展示了传统数据合成的过程。本文首先基于真实的双语语料库,预训练一个源到目标的NMT模型S2T,和一个目标到源的模型T2S。然后使用预训练的模型来翻译多语的源和目标数据,,这样做是为了获得目标合成句和源合成句。最后,使用结合了真实数据,前向翻译的混合语料,以及回译数据训练S2T模型。

2.2 The Proposed AR Framework

图1中的右边部分(自动修复),展示了AR的框架图。根据2.1节中介绍的传统合成方法中的一些概念,T(sr,m)定义为修复的合成源句子和目标句子。我们不是直接使用,而是使用T2T和S2S自动修复模型去修复合成数据,得到数据。接下来继续训练S2T模型,使用结合了真实语料的数据,前向翻译数据,回译数据,前向翻译修复数据以及回译修复数据。为了简化,下面的描述中多语数据的表示就不使用上标了。Eg. Sa表示

自动修复模型 AR模型的目标是将低质量(有噪声)的语句转化成高质量的句子。本文采取了seq2seq的结果去构建本文中的S2S和T2T AR模型。我们使用了基于自注意力网络模型(SAN)结构。给定一个低质量和高质量的句对(Sr, Ssr),其中Ss = (s1,s2,…,sm),高质量句子Ssr = (sr1,sr2,…,srn),AR模型预测的每个目标符号的条件分布为p(sri):

AR模型的输入是Ss,AR模型将其转化成比Ss高质量的结果Ssr。

AR模型训练 本文将回译BT场景作为一个例子来描述如何生成训练数据以及如何训练AR模型。FT场景和BT是等同的,除了修复的数据不同之外。为了构建BT数据的AR模型,本文使用语句对(Ss,Ssr)作为训练语料库,其中Ss是NMT系统产生的低质量的翻译句。Ssr是高质量的句子。

对于Ssr,我们可以简单地使用大规模真实多语数据Sa,有两个原因:1)多语数据是最普遍的选择,对训练NMT来说是足够的;2)多语数据最开始是某些特定语言,因此句子的流畅度以及准确度得到了保证,这样就保证了它的高质量性。

至于Ss,使用一个数据驱动的方法来产生它。我们首先使用预训练的S2T模型来翻译多语数据Sa,并且获得了Ts。然后使用预训练的T2S模型将Ts翻译成Ss。

由于Ss是由S2T和T2S翻译模型产生的,它可能会带有出一些NMT翻译产生的错误,这也正好符合了本文中Ss的设定。除此之外,AR验证数据包含了从AR训练数据中随机挑选出来的1000个句对。得到训练集和验证集之后,使用典型的seq2seq模型来训练AR模型。

3 Experiments

3.1 Implementation Detail

数据集 在公开可使用的WMT2014英语到德语的数据集和IWSLT2014德语到英语的数据集上进行模型的评估。在WMT任务上,训练集包含大约450万个句对。使用newstest2013作为验证集newstest2014做测试集。

3.2 Experimental Results

实验结果用下面的两个结果表来展示:

3.3 AR Quality Analysis

实验结果表明AR可以帮助得到更高的BLEU分值;文中还计算了change rate:

表2展示了CR的值,AR模型可以修改句子的大部分(大约76%)的内容。

Better Rate:这里的”better“意味着生成的摘要句得到了更高的BLEU得分。69%的修正的句子Ssr比原来的句子Ss要好。

4 Conclusion

本文提出来的自动修复模型可以1)提高合成句子的质量;2)通过修复句子,提高NMT模型的结果。本文提出来的自动修复的方法不仅可以用于文本翻译,还可以用于一些其他的任务的句子修复问题上,并且具有更小的时间开销。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值