ReWE: 用于机器翻译系统调节的回退单词embedding方法

     ReWE: 用于机器翻译系统调节的回退单词embedding方法

 

 

链接:https://www.aclweb.org/anthology/N19-1041

  

机器翻译(MT)系统的调节仍是一个重要问题,尤其是在低资源的环境中。为改善这个问题,该文提出回退的单词embedding(ReWE)作为系统中新的调节技术,它对翻译中下一个单词的预测(分类值)和它的单词embedding(连续值)进行联合训练。这样系统可以学习由单词embedding表达的分布属性,提升了对未知句子的泛化能力。该模型在三个翻译数据集上相对基准方法都获得了提升,提升的BLEU分数点范围从0.91到2.54,相对最先进的系统也有明显提升。

神经机器翻译通常使用最大似然估计(MLE)方法来训练。然而,如(Elbayad et al.,2018)指出,MLE有明显的两个限制:首先它将除了正确标注数据外的所有预测视为同等的不正确。因此那些经常被认为与正确标注数据是可高度交换的同义词和语义相近词在训练时被完全忽略。第二个限制是MLE训练的系统经常受困于“暴露的偏差”问题且不能很好地泛化到大的翻译输出空间。由于这些限制,NMT系统在有监督数据受限的情况下较难超过其他传统的MT方法。这篇论文提出一个新颖的NMT调节技术—ReWE,让模型学习上下文的特性。它包括:修改传统的seq2seq解码器以进行联合学习,图1显示了改进的解码器结构,两种预测包含在训练目标函数中,将基于单词embedding的连续损失函数与标准的MLE相结合,目的是激励系统学习联合预测下一个单词和它的上下文(用单词embedding表示的方法),从而提升泛化能力。在推理阶段维持分类预测并忽略预测的embedding。

                               模型

序列到序列基准模型

基准模型是标准的带有attention机制的NMT模型,使用RNN作为编码器和解码器。解码器中的RNN生成隐藏层向量序列{S1,. . . ,Sm},给定上下文向量、前一步隐藏层状态Sj-1、和前一步预测单词yj-1,得到新的隐藏层状态Sj:

预测的基于目标词汇中单词的条件概率分布Pj,由以下式子给出:

一般来说,训练尝试最小化负对数似然(NLL),定义为:

Pj(yj)代表正确标注单词yj 的概率。NLL损失以正确标注数据的概率为1而其他单词的概率为0的方式进行最小化。

ReWE

预训练单词embedding捕获上下文中相似的单词,通常最大化中心词wt的上下文中单词wt+k的概率,这个概率可以表示为:

C是上下文的长度,T是训练集中单词的总数。传统上单词embedding仅作为输入表示。该文中在输出中加入它们作为目标函数的一部分,在预测概率分布Pj的同时回退Sj到正确标注单词的embedding e(yj),ReWE模型包含两个线性层,之间有一个ReLU单元,输出单词embedding大小的向量ej,增加这个额外的模块只带来可以忽略的计算代价和训练时间。

训练目标函数是输出向量ej 和正确标注数据embedding e(yj)之间的数值损失:

实验中探索了两个版本的ReWEloss:最小化平方误差(MSE)和余弦embedding损失(CEL)。最后,NLLloss和ReWEloss 合并形成带有正的平衡因子λ的训练目标函数:

实验及结果

    该研究基于OpenNMT工具包(Klein et al.,2017)建立模型,训练使用和(Denkowski

and Neubig, 2017)相同的设置。该研究同时探索了使用byte pair encoding(BPE)(Sennrich et al., 2016)的子单词单元的使用。 该研究在2016 ACLConference on Machine Translation (WMT16)和 2016International Workshop on Spoken Language Translation (IWSLT16)的三个开放数据集上进行评估,此外将实验结果与Denkowskiand Neubig最近报告的非集成方法进行了比较。所有的模型报告了BLEU分数。

    初步实验中, 该文进行了敏感性测试以确定平衡因子λ的最优值,使用的是en-fr验证集,结构由图2显示,该图显示了出在λ比较小的情况下(<1)MSE损失略微超过基准模型,但BLEU分数在更大的λ值时剧烈下降。相反CEL的值增长比较稳定,所以之后用CEL来作为ReWEloss并将λ值保持在20。

表2显示了所有数据集上的主实验结果,结果显示增加ReWE在所有情况下都显著超越了基准方法。

    为更进一步探索ReWE损失的特点,图3画出了基于en-fr训练集的模型在训练时NLL和ReWE(CEL)损失的值。ReWE(CEL)的值低于NLL损失的值很多,因此它对梯度可能的贡献受到限制。而当将λ因子设为20时,它对梯度的影响变得明显。通常NLL和ReWe(CEL)都在训练过程中下降因此总损失也下降,如图所示联合的目标函数能够带来翻译质量的提升。

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值