ICLR 2020 满分论文解读|一种镜像生成式机器翻译模型:MGNMT

本文提出一种镜像生成式机器翻译模型:MGNMT(mirror-generative NMT)。实验表明本文方法确实有效,MGNMT在各种场景和语言(包括resource rich和 low-resource语言)中始终优于现有方法。

MGNMT:镜像生成式NMT(ICLR 2020满分论文)

机构:南京大学,字节跳动

阅读原文:Mirror-Generative Neural Machine Translation

 

20171.png

一、摘要

常规的神经机器翻译(NMT)需要大量平行语料,这对于很多语种来说真是太难了。所幸的是,原始的非平行语料极易获得。但即便如此,现有基于非平行语料的方法仍旧未将非平行语料在训练和解码中发挥得淋漓尽致。

为此,本文提出一种镜像生成式机器翻译模型:MGNMT(mirror-generative NMT)。

MGNMT是一个统一的框架,该框架同时集成了source-target和target-source的翻译模型及其各自语种的语言模型。MGNMT中的翻译模型和语言模型共享隐语义空间,所以能够从非平行语料中更有效地学习两个方向上的翻译。此外,翻译模型和语言模型还能够联合协作解码,提升翻译质量。实验表明本文方法确实有效,MGNMT在各种场景和语言(包括resource rich和 low-resource语言)中始终优于现有方法。

二、介绍

当下神经机器翻译大行其道,但严重依赖于大量的平行语料。然而,在大多数机器翻译场景中,获取大量平行语料并非易事。此外,由于领域之间平行语料差异太大,特定领域内有限的并行语料(例如,医疗领域),NMT通常很难将其应用于其他领域。因此,当平行语料不足时,充分利用非平行双语数据(通常获取成本很低)对于获得令人满意的翻译性能就至关重要了。

当下的NMT系统在训练和解码阶段上都尚未将非平行语料发挥极致。对于训练阶段,一般是用回译法(back-translation )。回译法分别更新两个方向的机器翻译模型,这显得不够高效。给定source语种数据x和target语种数据y,回译法先利用tgt2src翻译模型将y翻译到xˆ。再用上述生成的伪翻译对(xˆ,y) 更新src2tgt翻译模型。同理可以用数据x更新反方向的翻译模型。需要注意的是,这里两个方向上的翻译模型相互独立,各自独立更新。也就是说,一方模型每次的更新都于另一方无直接益处。对此,有学者提出联合回译法和对偶学习(dual learning),在迭代训练中使二者隐含地相互受益。但是,这些方法中的翻译模型仍然各自独立。理想状态下,当两个方向的翻译模型相关,则非平行语料所带来的增益能够进一步提高。此时,一方每一步的更新都能够提升另一方的性能,反之亦然。这将更大地发挥非平行语料

  • 3
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值