一种镜像生成式机器翻译模型:MGNMT | ICLR 2020满分论文解读

MGNMT:镜像生成式NMT

(ICLR 2020满分论文)

机构:南京大学,字节跳动

点此获取“论文链接”

20171.png

一、摘要

常规的神经机器翻译(NMT)需要大量平行语料,这对于很多语种来说真是太难了。所幸的是,原始的非平行语料极易获得。但即便如此,现有基于非平行语料的方法仍旧未将非平行语料在训练和解码中发挥得淋漓尽致。

为此,本文提出一种镜像生成式机器翻译模型:MGNMT(mirror-generative NMT)。

MGNMT是一个统一的框架,该框架同时集成了source-target和target-source的翻译模型及其各自语种的语言模型。MGNMT中的翻译模型和语言模型共享隐语义空间,所以能够从非平行语料中更有效地学习两个方向上的翻译。此外,翻译模型和语言模型还能够联合协作解码,提升翻译质量。实验表明本文方法确实有效,MGNMT在各种场景和语言(包括resource rich和 low-resource语言)中始终优于现有方法。

二、介绍

当下神经机器翻译大行其道,但严重依赖于大量的平行语料。然而,在大多数机器翻译场景中,获取大量平行语料并非易事。此外,由于领域之间平行语料差异太大,特定领域内有限的并行语料(例如,医疗领域),NMT通常很难将其应用于其他领域。因此,当平行语料不足时,充分利用非平行双语数据(通常获取成本很低)对于获得令人满意的翻译性能就至关重要了。

当下的NMT系统在训练和解码阶段上都尚未将非平行语料发挥极致。对于训练阶段,一般是用回译法(back-translation )。回译法分别更新两个方向的机器翻译模型,这显得不够高效。给定source语种数据x和target语种数据y,回译法先利用tgt2src翻译模型将y翻译到xˆ。再用上述生成的伪翻译对(xˆ,y) 更新src2tgt翻译模型。同理可以用数据x更新反方向的翻译模型。需要注意的是,这里两个方向上的翻译模型相互独立,各自独立更新。也就是说,一方模型每次的更新都于另一方无直接益处。对此,有学者提出联合回译法和对偶学习(dual learning),在迭代训练中使二者隐含地相互受益。但是,这些方法中的翻译模型仍然各自独立。理想状态下,当两个方向的翻译模型相关,则非平行语料所带来的增益能够进一步提高。此时,一方每一步的更新都能够提升另一方的性能,反之亦然。这将更大地发挥非平行语料的效用。

对于解码,有学者提出在翻译模型x->y中直接插入独自在target语种上训练的外部语言模型。这种引入target语种知识的方法确实能够取得更好的翻译结果,特别是对于特定领域。但是,在解码的时候直接引入独立语言模型似乎不是最好的。原因如下:

(1)采用的语言模型来自于外部,独立于翻译模型的学习。这种简单的插入方式可能使得两个模型无法良好协作,甚至带来冲突;

(2)语言模型仅在解码中使用,而训练过程没有。这导致训练和解码不一致,可能会影响性能。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值