AR: Auto-Repair the Synthetic Data for Neural Machine Translation---ACL 2020

最新推荐文章于 2024-10-11 09:23:39 发布

github_37228709

最新推荐文章于 2024-10-11 09:23:39 发布

阅读量382

点赞数

分类专栏：论文阅读系列文章标签：自然语言处理神经网络

本文链接：https://blog.csdn.net/github_37228709/article/details/107607941

版权

论文阅读系列专栏收录该内容

4 篇文章 0 订阅

订阅专栏

这是一篇应用于机器翻译领域的文章，这篇文章提出来的模型是Auto-Repair（AR），核心目的是对生成的句子进行自动修复。论文篇幅不长，一共只有6页，下面就详细记录一下自己的对论文的翻译以及一点点理解（有待进一步理解模型），附上原文链接：AR: Auto-Repair the Synthetic Data for Neural Machine Translation

1 Introduction

2 Approach

2.1 Background and Notation

2.2 The Proposed AR Framework

3 Experiments

3.1 Implementation Detail

3.2 Experimental Results

3.3 AR Quality Analysis

4 Conclusion

1 Introduction

引言部分主要介绍了目前机器翻译领域面临的问题：数据集不够充分，因为很多机器翻译的数据集是不公开的，那么对NMT研究来说是很不利的。之前也有相关的工作比如通过BT（back-translation 回译）的方法来合成一些“假的”数据，但是合成的数据存在不准确的问题，因此本文提出来的模型是对合成的数据进行自动修复(AR)。

2 Approach

这一部分主要介绍了AR模型以及AR模型怎么运用到NMT当中的。

先把本文模型结构图截取出来：

2.1 Background and Notation

首先介绍后面会用到的一些概念：

Sa：真实的源句子

Ta：真实的目标句子

Ss：合成的源句子

Ts: 合成的目标句子

: 双语中的真实源句

: 多语中的真实源句

因为数据来源有双语数据和多语数据，因此采用上标的形式对其进行区分，其中上标b表示双语，上标m表示多语。

图1中左边部分（传统合成过程）展示了传统数据合成的过程。本文首先基于真实的双语语料库，预训练一个源到目标的NMT模型S2T，和一个目标到源的模型T2S。然后使用预训练的模型来翻译多语的源和目标数据，，，这样做是为了获得目标合成句和源合成句。最后，使用结合了真实数据，前向翻译的混合语料，以及回译数据训练S2T模型。

2.2 The Proposed AR Framework

图1中的右边部分（自动修复），展示了AR的框架图。根据2.1节中介绍的传统合成方法中的一些概念，和T(sr,m)定义为修复的合成源句子和目标句子。我们不是直接使用和，而是使用T2T和S2S自动修复模型去修复合成数据，得到和数据。接下来继续训练S2T模型，使用结合了真实语料的数据，前向翻译数据，回译数据，前向翻译修复数据以及回译修复数据。为了简化，下面的描述中多语数据的表示就不使用上标了。Eg. Sa表示。

自动修复模型 AR模型的目标是将低质量（有噪声）的语句转化成高质量的句子。本文采取了seq2seq的结果去构建本文中的S2S和T2T AR模型。我们使用了基于自注意力网络模型（SAN）结构。给定一个低质量和高质量的句对（Sr, Ssr），其中Ss = (s1,s2,…,sm)，高质量句子Ssr = (sr1,sr2,…,srn)，AR模型预测的每个目标符号的条件分布为p(sri)：