EMNLP 2018 | 基于短语和神经网络的无监督机器翻译

无监督机器翻译是目前热门研究方向之一。在仅依赖单语数据情况下,实现语种间的翻译是一个具有实际意义并极赋挑战的任务。文章《Phrase-Based & Neural Unsupervised Machine Translation》,在前人的研究基础上做了些优化与改进,提出了神经机器翻译模型(NMT)和基于短语的统计机器翻译模型(PBSMT)的变体,利用更为合理的初始化,语言模型及迭代回译方法,使得无监督机器翻译性能进一步提升。

论文地址:
https://arxiv.org/pdf/1804.07755.pdf
代码地址:
https://github.com/facebookresearch/UnsupervisedMT

引言

这篇文章在前人的基础上,总结出无监督机器翻译的三个原则,即合理的初始化,语言模型和迭代回译。通过初始化,为模型提供了先验知识和期待的解空间;单语数据蕴含了丰富的语言学知识,语言模型的应用让模型在一定程度上学习了这些知识,使生成的句子更为流畅和合理;在迭代回译中,源语到目标语的翻译和目标语到源语的翻译组成对偶任务,通过将语种A的句子翻译成语种B,再翻译回语种A,来训练目标模型,把无监督问题变为了有监督问题。
图1 无监督机器翻译三原则
如上图所示,子图A表示两个语种的单语数据,标记表示句子(详见图例);子图B表示第一个原则:初始化,例如可通过无监督学习到的词典进行逐词翻译,以粗略的对齐两种分布;子图C表示第二个原则:语言模型,每个语种独立地训练语言模型,为模型提供语言结构等先验知识,以纠正错误的句子等;子图D表示第三个原则:迭代回译,从一个观察到的源语句子(实心红色圆圈)开始,通过源语到目标语模型进行翻译(虚线箭头),产生一个可能错误的翻译(空心蓝色圆圈附件的蓝色十字),然后进行回译,再用目标语到源语模型(连续箭头)重建源语句子,通过重建句子与初始句子之间的差异为训练目标语到源语模型提供了误差信号,反之亦然。

模型

图2结合无监督机器翻译的三原则,概述了无监督机器翻译的方法。首先学习语言模型,其次初始化提供初始解空间,最后通过迭代回译使模型收敛。其中 S S S T T T分别代表源语和目标语句子的空间, P s P_{s} Ps P t P_{t} Pt表示在源语和目标语上训练的语言模型, P s → t P_{s\rightarrow t} Pst 表示源语到目标语的翻译模型, P t → s P_{t\rightarrow s} Pts类似。
图2 无监督机器翻译算法概述

无监督神经机器翻译

1.初始化

无监督神经机器翻译中,通常使用对齐的词嵌入初始化编码器和解码器的Embedding或输出层。不同于之前所采用的方法,两个语种的单语数据分别训练嵌入,再通过半监督和无监督的方法对齐嵌入空间。对于相近的语言,作者提出了一种更加简单高效的对齐方法,即混合源语和目标语数据,训练词嵌入,这样的做法能更好的对齐分布空间。其次作者还使用了BPE减少了词汇量和消除了输出翻译中的未知单词。

2.语言模型

在神经机器翻译中,主要通过去噪自编码器实现了语言模型,类似于机器翻译任务,不同点在于编码器和解码器的输入均属于同一语种。其目标函数如下:

其中 C C C 是噪声模型,对Encoder输入的词进行丢弃或交换,实验表明该方法有利于语言模型的学习; P s → s P_{s\rightarrow s } Pss 表示编码器、解码器输入都是源语的编码-解码模型, P t → t P_{t\rightarrow t } Ptt 类似。

3.迭代回译

回译是半监督学习中利用单语数据的有效方法。在无监督机器翻译中,该过程的目标函数表示如下:

其中, u ∗ ( y ) u^{*}(y) u(y)表示由目标语到源语模型翻译得到的源语句子, v ∗ ( y ) v^{*}(y) v(y)表示由源语到目标语模型翻译得到的目标语句子。( u ∗ ( y ) u^{*}(y) u(y), y y y) 和( x x x, v ∗ ( y ) v^{*}(y) v(y))组成伪平行数据,基于最大似然估计,分别用于源语到目标语模型和目标语到源语模型的训练。

无监督统计机器翻译

统计机器翻译模型在低资源翻译任务上非常具有潜力。不同于端到端的神经机器翻译方法,统计机器翻译在翻译 x x x y y y时,依据 P ( y ∣ x ) = arg ⁡ max ⁡ y P ( x ∣ y ) P ( y ) P(y|x) = \mathop{\arg\max}_{y}P(x|y)P(y) P(yx)=argmaxyP(xy)P(y)。其中 P ( x ∣ y ) P(x|y) P(xy) 由短语表给出, p ( y ) p(y) p(y)是语言模型打分。
存在双语平行数据的情况下,基于短语的统计机器翻译模型能够推断出源语和目标语短语的对齐关系,进而可以得到短语表。短语表的每一项存储着某个源语或目标语的n-gram翻译到目标语或源语的n-gram的概率,短语表是统计机器翻译模型中最重要部分。
在无监督的条件下,可以很方便的得到目标语的语言模型,但缺少足够的信息学习到一个好的短语表。针对这个问题,本文使用预训练嵌入建立一个初始的短语表,再通过迭代回译优化短语表。

1.初始化

文章使用推断得到的双语词典去初始化短语表。源语短语 s j s_j sj到目标语短语 t j t_j tj的概率如下:

其中, T T T是用于调整分布峰值的超参数, W W W是将源语嵌入映射到目标语嵌入的矩阵, e ( x ) e(x) e(x) x x x的嵌入。

2.语言模型

文章中使用基于统计的n-gram语言模型, 并且在整个建模过程中语言模型保持不变。

3.迭代回译

基于上述过程,已能够仅用单语数据建立无监督机器翻译系统,但依然缺少了很多特征,并且受限于预训练嵌入,如没有包含更长的短语,包含很多噪声等。为了缓解上述问题,文章采用了类似于无监督神经机器翻译中的方法,通过迭代回译生成伪数据,去生成更多更正确的短语,使系统更健壮。

实验结果

如图3所示,文章提出的无监督NMT和PBSMT系统的性能大大优于以前的无监督基线。例如在英法任务,无监督PBSMT获得28.1的BLEU分数, 比之前的最佳结果多出更多超过11个点;在更复杂的英德任务,简单的将PBSMT生成的数据进一步调优NMT模型(PBSMT+NMT),约超过基线10个点左右,甚至在未做迭代回译时,PBSMT的性能也优于以前的模型。
图3 与之前方法的对比
分析图4的PBSMT实验结果,可以得到迭代回译能够显著提升翻译性能,但同时发现并不是迭代次数越多,性能提升的越多,提升最为明显的是在第一次迭代后。
图4 无监督实验

结论

文章在前人的基础上,总结出了无监督机器翻译三大原则:初始化、语言模型和迭代回译,提出的无监督神经机器翻译和基于短语的统计机器翻译,取得了非常好的效果。同时本文验证了统计机器翻译在无监督领域的潜力,为提升低资源甚至无资源的语种的机器翻译性能给与了很好的启发。


在这里插入图片描述
扫码识别关注,获取更多新鲜论文解读

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值