Reducing Word Omission Errors in Neural Machine Translation:A Contrastive Learning Approach
基本信息
Authors:Zonghan Yang, Yong Cheng, Yang Liu, Maosong Sun
Year:2019
From:ACL
研究目的
-
NMT SYSTEM倾向于make word omission errors(单词省略的错误)。所以,我们使用contrastive learning(使model分配更高的概率给ground-truth translation;更低的概率给erroneous translation)的方法来解决这个问题。
-
同时,还要开发一种模型通用的方法来解决NMT中单词省略的问题。
相关工作
- Modeling Coverage for NMT
- SMT中有一个coverage的概念,用以度量source phrase是否被翻译且被翻译一次。为了引入这个量,我们有两种方法:一是调整模型结构来包含coverage、二是在decoder端加入限制。但本文的工作于这些方法不同,因为CL于模型无关。我们使用的方法属于fine-tune
- Contrastive Learning in NLP
1.
方法
为了选择正确的句子,我们需要让NMT model给真实的句子分配的概率 > 给错误的句子分配的概率。
CL算法
第一步:给定一个平行训练集,通过train找到一组model参数,使训练集的log-likelihood最大。
第二步:通过省略y中的单词来构建负样本,这里有三种方法:
- random omission: 用随机均方分布来omission
- omission by word frequency: 根据词频省略
- omission by part of speech: 根据词性省略
第三步:
N代表一个ground-truth的y产生了几个错误的负样本。
实验
三个baseline
我们的CL方法:
动词或介词(preposition)
实验
1 BLEU
2 人类评价
结论
- 这个方法没有language的限制
- 这个方法可以快速被train,收敛得快
- 这个方法是model agonstic的
Notes
n/a