©NLP论文解读 原创•作者 | FLIPPED
研究方向 | 机器翻译
导读
机器翻译是关于如何使用计算机将一种语言翻译成另一种语言的研究。
在方法论上,机器翻译的方法主要分为两类:基于规则的方法和基于语料库的方法。基于规则的机器翻译 (RBMT) 方法使用双语词典和手动编写的规则将源语言文本翻译成目标语言文本,然而手动编写规则是十分繁琐且难以维护的。
随着深度学习技术的发展,基于语料库方法之一的神经机器翻译(NMT)逐渐取代了早期基于规则的机器翻译方法,众多模型包括非自回归模型、无监督 NMT 模型以及 NMT 上的预训练模型(基于bert)等不断涌现。
尤其随着sequence to sequence 的翻译架构的提出和transformer模型的成熟与应用,神经机器翻译方法的翻译质量和效率得到了巨大的提升。本文将针对神经机器翻译目前发展的热点领域,分享最新的研究进展。
图1.基于注意力机制的神经网络翻译
低资源条件下的机器翻译
在现实世界中,部分小语种的机器翻译问题面临着极大的挑战。由于缺乏大量的平行语料,模型很难有效的学习到对应语言之间的映射关系。在这种情况下,采用迭代的back translation[1]和 self-training来扩充训练数据是一种行之有效的方法。
Back-translation通常训练一个从目标语言翻译成源语言的神经网络,单独利用目标语言的语料来得到源语言对应的文本,把这样得到的pair同时加到已有平行语料中一起训练。
Self-training则首先利用平行语料来训练一个正向的神经网络,然后将大量无标注的源语言数据翻译至目标语言,从而得到带噪的平行语料。