Sentence Concatenation Approach to Data Augmentation for Neural Machine Translation阅读笔记

Abstract

NMT中的长句翻译表现较差,这是低资源语言的一个主要问题。我们假设这个问题是由于训练数据中长句数量不足造成的。因此,本研究提出一种简单的数据扩充方法来处理长句。在该方法中,我们只使用给定的平行语料库作为训练数据,通过连接两个句子生成长句。基于实验结果,我们证实了所提出的数据扩充方法在长句翻译方面的改进,尽管它很简单。同时,将该方法与反翻译相结合,进一步提高了翻译质量。

1 Introduction

当句子长度超过某一特定值时,NMT的质量就不如SMT,句子长度越大,翻译质量就越低。我们拥有的训练数据越少,翻译的准确性就越低。这个问题在低资源语言中很普遍。现有的低资源双语语料库数据增强方法,反译生成额外的伪数据。

因此,本研究提出一种在长句翻译中有效的数据扩充方法。将两个句子随机连接起来,加入到原始数据中,就得到了长句。

在这里插入图片描述

本研究发现,在英日语料库中,长句翻译的BLEU分数和翻译质量都有所提高。此外,通过引入反向翻译,BLEU得分进一步提高。此外,人类的评估表明,流利性的增加多于充分性的增加。

贡献:

  • 我们提出了一种简单而有效的数据扩充方法,包括句子连接,用于长句翻译。
  • 结果表明,将反译和句子串联相结合可以进一步提高翻译质量。

2 Related Works

NMT的总体质量优于SMT,但在60个单词以上的句子上,SMT的表现优于NMT。

3 Data Augmentation by Sentence Concatenation

该方法通过反向平移和连接来扩充并行数据。

首先,我们对平行语料库的目标侧进行反向翻译创建伪数据作为额外的训练数据。注意,我们在反向翻译中没有使用外部数据,目标句的多样性也没有改变。

然后,我们在原始数据或伪数据中随机选择两个句子,并将它们连接起来创建另一个训练数据。从技术上讲,我们将两个源句子连接起来,并在它们之间插入一个特殊的标记“”。相应的目标句以同样的方式串联起来。

最后,我们得到了包含原始句子、伪句子和连接句子的增强训练数据,其数据大小是原始训练数据的四倍。

4 Experiments

4.1 Models

组合出五种数据,使用训练数据训练前向翻译模型,并比较测试数据输出获得的BLEU分数。

4.2 Setup

使用WAT17英语到日语的翻译。使用Fairseq的Transformer模型。Adam作为优化器,dropout为0.3,最大训练300000个steps,每步的batch size约为65,536个token。使用BLEU分数进行自动评估。

4.3 Results

本文提出的方法对长句翻译更有效。结果表明,反向平移和连接是有效的

4.4 Discussion
4.5 Case Study

5 Conclusion

本研究提出了一种提高长句翻译质量的数据扩充方法。实验结果表明,该方法简单实用,尤其适用于长句的翻译。然而,短句的翻译质量却降低了。在未来,我们希望开发一种方法,在有大量可用的并行数据时能很好地工作。此外,由于所提方法中短句翻译的充分性相当低,我们希望通过考虑重构损失来弥补这一缺陷。此外,探索隐藏空间插值在考虑长语句的数据扩充中的使用也将是有趣的

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值