论文名称:Unsupervised Machine Translation Using Monolingual Corpora Only
作者: Guillaume Lample / Ludovic Denoyer /Marc Aurelio Ranzato
发表时间:2018/4/30
论文链接:https://arxiv.org/pdf/1711.00043v1.pdf
代码链接:https://github.com/facebookresearch/MUSE 以及 https://github.com/facebookresearch/fastText
发现一篇很详细的翻译笔记:地址
在此仅作自己的学习笔记总结:
1 论文概述
本文目的:希望不利用平行语料库实现机器翻译,本文提出的模型,仅需要两个语种各自的单语种语料数据集,并将2者映射到同一隐空间中。模型主要是学习通过从共享的隐特征向量空间中重建这两种语种。
模型的两个原则:第一个原则:这个模型必须能够从一个带噪声的输入中重建出一个给定语种的句子,如标准去噪自动编码器。第二个原则:该模型能够在目标域中对带有噪声的翻译句子重建出源句,反之亦然。
模型重要思想:关键思想是在两种语言(或领域)之间建立共同的潜在空间,并通过根据两个原则在两个领域中进行重构来学习翻译:(i)该模型必须能够从特定语言中重构给定语言的句子。 噪声版本,如标准降噪自动编码器中的那样(Vincent等,2008)。 (ii)在目标域中相同句子经过嘈杂翻译的情况下,