Survey of Low-Resource Machine Translation阅读笔记

最新推荐文章于 2024-04-27 10:09:35 发布

给个编制

最新推荐文章于 2024-04-27 10:09:35 发布

阅读量2.6k

点赞数

分类专栏：文献阅读文章标签：机器翻译自然语言处理数据挖掘

本文链接：https://blog.csdn.net/weixin_43540533/article/details/121961415

版权

文献阅读专栏收录该内容

37 篇文章

订阅专栏

文章目录

1 Introduction

目前能够讨论与人媲美的机器翻译系统都是在数千万甚至数亿句平行语句组成的数据集上训练而来。这种规模的数据集只适用于少数资源丰富的语言对（基本是英语与其他少数语言）。现实情况中，绝大多数语言可用数据极其有限，或者根本不存在。

Opus【1】是规模最大的双语语料库。

现有的低资源双语语料库，多存在数据嘈杂或来源于非常专业的领域，如宗教经典等。这些数据与我们想要翻译的文本出与不同领域。低资源语言面临的问题：数据缺乏、域外数据和数据嘈杂。

如何定义低资源对？本文定义，论文里面认为是低资源就定义低资源工作。

本文研究结构：第2部分，提高低资源MT中双语和单语数据的数量和质量；第3部分，使用单语数据的工作；第4部分，使用其他语言的双语数据；第5节，使用其他类型的语言数据。第6节，研究利用现有数据和资源更好的训练和建模；第7节，总结常用方法和任务系统。

2 Data Sources

本节讨论常用数据集、如何为低资源语言扩增更多双语数据。

数据无疑是我们在建模翻译方面取得成功的重要因素。

2.1 Searching Existing Data Sources

Opus是最大的免费双语数据，有500多种不同语言和变体的平行语料库。单语语料库。

2.2 Web-crawling for Parallel Data

一个途径，从网络爬取更多双语数据。

2.3 Low-resource Languages and Web-crawling

2.4 Other Data Sources

创建新的平行数据的方法。

3 Use of monolingual data

即使数据扩增也无法产生足够的双语数据来训练高质量的MT模型，然而，单语数据几乎总是比平行文本丰富，因此，利用单语数据已经成为低资源MT研究中最重要和最成功的领域之一。

单语数据用于低资源机器翻译的综述【2】，分类（1）基于合成数据和外部语言模型集成，（2）基于迁移学习的方法。

3.1 Integration of external language models

对于统计机器翻译，单语数据通常使用语言模型整合到系统中。早期的NMT研究中，从SMT汲取灵感，有几篇研究集中在将外部语言模型集成到NMT模型中。第一种，像得分函数中添加语言模型，略。缺点增加了解码所需时间。Haddow和Birch(2020)【3】提出在训练期间使用语言模型作为正则化器克服上述问题。

3.2 Synthesising Parallel Data using Monolingual Data

单语数据合成双语数据，

3.2.1 Self-learning: backtranslation and its variants.

利用单语数据最成功的策略之一是通过使用启发式策略或中间训练的MT模型翻译单语文本，从而创建合成的并行数据。

回译是指使用机器翻译系统将目标端单语数据翻译成相应的合成源句，其目的是让机器翻译解码器看到格式良好的句子。回译最早是在SMT中引入的(Bertoldi和Federico 2009;Bojar和Tamchyna 2011)【4，5】，但由于单语数据已经可以使用语言模型轻松地集成到SMT系统中，而且SMT中的推理相当缓慢，所以反翻译没有得到广泛应用。然而，对于NMT，人们发现反翻译是一种非常有效的利用单语数据的方法(Sennrich, Haddow, and Birch 2016a)【6】，并且它仍然是一种重要的技术，无论是对于低资源的MT还是一般的MT。

回译的变体：正向翻译（单语源数据被翻译成目标语言），对于低资源MT来说不如回译受欢迎，可能是因为它会给解码器带来噪音。Currey、Miceli Barone和Heafield(2017)【7】提出了一种相关的、甚至更简单的技术，即从目标到源复制以创建合成数据，假设这对命名实体的翻译特别有帮助。

迭代翻译，对于低资源NMT，回译是提高质量特别有效的方法，然而，可能存在的一个问题就是，当双鱼数据稀缺时，用于翻译的初始模型（根据可用的并行数据进行训练）通常质量较差，这不可避免的导致质量较差的回译。解决这一问题的逻辑方法是执行迭代回译，从而在两个语言方向上连续使用质量不断提高的中间模型为下一步创建合成并行数据。这已被用于低资源NMT【8，9】，通常迭代两次已经足够。

3.2.2 Unsupervised MT

无监督机器翻译的目标是在没有任何平行语料的情况下学习翻译模型，可以被认为是低资源机器翻译的一种极端形式。第一个无监督的NMT模型【10，11】通常分为两个阶段进行培训：首先通过对齐单词嵌入和跨语言（例如使用双语种子词典）创建粗略的翻译系统，然后使用几轮迭代回译和去噪自编码进一步训练系统。但是在低资源表现不佳，主要是通常分为两个阶段进行培训：首先通过对齐单词嵌入和跨语言（例如使用双语种子词典）创建粗略的翻译系统，然后使用几轮迭代反译和去噪自动编码进一步训练系统【12】。使用大量但与数据训练模型的迁移学习，情况有所改善，通过使用有限的并行数据（即半监督而非无监督）添加监督训练步骤，可以实现一些进一步的收益【13】，但性能仍然有限。Chronopoulou、Stojanovski和Fraser（2021）【14】改进了单词嵌入的跨语言对齐，以便在无监督的马其顿语-英语和阿尔巴尼亚语-英语中获得更好的结果。

3.2.3 Modification of existing parallel data.

使用语言模型生成合成双语数据的另一种方法是，通过替换某些单词，从新示例中合成双语示例。在翻译中，当双语句对发生修改时，保持双语句对中两个句子之间的翻译关系是很重要的。目前这方面工作很少。【15】探讨了在模拟的低资源环境下的MT数据扩充方法（英语-德语），依靠Bi-LSTM语言模型预测句子中看似合理但是罕见的等价词语，然后将替换该词，同时将对应平行句中对齐的单词替换为其翻译结果（通过在SMT短语表中查找获得的）。这是回译的一种补充技术。【16】通过类似技术以改进模型对低资源翻译方向古吉拉特语新词汇的适应性→英语他们使用伯特语言模型来选择训练句子，这些句子提供适当的上下文来替换新的和看不见的单词，以便创建新的合成平行训练句子。

3.3 Introducing Monolingual Data Using Transfer Learning

通过迁移学习，我们提到了使用单语数据训练的模型用于初始化部分或全部NMT模型的技术。低资源NMT模型可以在其他（高资源）语言的帮助下进行训练。

*预训练embeddings：*迁移学习意味着使用预训练的的词嵌入，如word2vec【17】或GloVe【18】，将大型未标记单语语料库中的知识引入模型。【19】研究表明，预训练的词嵌入在某些低资源环境中非常有效。

预训练语言模型：使用预训练的语言模型来初始化编码器或解码器或者两者【20】。

预训练模型已经拓展了新的目标函数，基于mask词的大量单语上训练。ELMo【21】和BERT【22】等模型已被证明对自然语言理解任务非常有益，研究人员已寻求将相关思想应用于 NMT。

尽管ELMo和BERT在NLP中取得了成功，但直到XLM【23】、MASS【24】和mBART【25】模型的成功，NMT的大规模预训练才开始流行。这些模型允许在对感兴趣的语言进行微调之前，对多种语言的大量单语数据进行初始训练，从而实现NMT的迁移学习。并行数据也可以纳入这些预培训方法中。

4 Use of multilingual data

考虑一组不同但是相关的方法，它们使用来自不同语言的附加数据（即在我们考虑的语言对意外的语言中进行翻译）这些多语言方法大致可分为两类：（i）迁移学习和（ii）多语言模型。

迁移学习，使用“父”模型的部分或者全部参数来初始化“子“模型的参数。多语言模型的思想是训练一个能够在几种不同语言对之间进行翻译的系统。最后我们考虑了更新的迁移学习方法，基于从单语言和双语数据的多语言集合中学习大型预训练模型。

4.1 Transfer Learning

在NMT的最早形式的多语言迁移学习中，在一个语言对上训练父模型，然后使用训练的参数初始化子模型，然后在所需的低资源语言对上训练子模型。【26】首次探索了机器翻译中的迁移学习。他考虑了法语-英语的父模型，以及将 4 种低资源语言（豪萨语、土耳其语、乌兹别克语和乌尔都语）翻译成英语的子模型。他们表明，迁移学习确实可以改善随机初始化，并且当目标嵌入的值在训练父级后固定时获得了这种情况的最佳性能，但所有其他参数的训练仍在继续。【27】表明，在相关语言之间转换时，父模型和子模型之间共享词汇时有益的。【28】研究表明语言相关性很重要。然而，【29】作者表明迁移学习的主要考虑因素是拥有强大的父模型，并且它可以很好地用于不相关的语言对。尽管如此，如果语言不相关且scripts不同，例如从阿拉伯语-俄语父网络转移到爱沙尼亚语-英语，转移学习就没那么有用了。(Aji et al. 2020) 【30】提供了对低资源环境的迁移学习的进一步见解，他分析了训练动态并得出结论，母语并不重要。使用强（但在语言上不相关）父模型的迁移学习的有效性已在共享任务提交中得到证实，例如 (Bawden et al. 2020)【31】。其余包括多阶段迁移学习。

4.2 Multilingual Models

多语言机器翻译的目标是建立一个能够在任意两种语言之间进行翻译的通用模型。在多语言模型中包含低资源语言对可以被视为利用其他可能相关语言的额外数据的手段。在训练数据中使用更多语言有助于开发通用表示空间，从而允许特定语言的模型组件之间在一定程度上共享参数。

Dong et al. (2015) 【32】是最早的多语言 NMT 研究之一，专注于同时将单一语言翻译成多种语言。这种方法的中心思想是拥有一个共享的编码器和许多特定于语言的解码器，包括注意力模块中特定于语言的权重。通过对多种目标语言进行训练（表现为多任务设置），其动机是源语言的表示不仅会在更多数据上进行训练（多亏了多语言对），而且表示可能更通用，因为它被用于解码多种语言。他们发现多解码器设置比双语模型提供了系统增益，尽管该模型仅在模拟的低资源设置中进行了测试。

为了简化模型（同时减少参数数量）并最大程度地鼓励语言之间的共享，Ha、Niehues 和 Waibel（2016 年）【33】以及 Johnson 等人。 (2017)【34】提出使用单个编码器和解码器来训练所有语言方向（称为通用编码器-解码器）。(2017) 【34】在使用通用模型对多语言翻译进行建模的能力方面表现出希望，并且零样本翻译（在没有提供并行训练数据的语言方向之间）也被证明是可能的。

Neubig 和 Hu (2018) 【35】将多语言模型与上一节的迁移学习方法相结合，提出了多种使多语言模型适应新语言的方法。作者考虑了冷启动和热启动场景，这取决于新语言的训练数据是否可用于训练原始多语言模型。他们发现，将低资源语言训练数据与来自类似高资源语言（即类似语言正则化）的数据混合在一起的多语言模型可提供最佳翻译性能。

4.2.1 Massively multilingual models.

在过去的几年里，人们努力扩大多语言培训中包含的语言数量，特别是通用多语言模型（Johnson 等人，2017 年【34】）。动机是增加语言数量应该会提高所有语言方向的性能，这要归功于额外数据的添加和语言之间的变换增加，尤其是对于低资源语言对。

例如，Neubig 和 Hu (2018) 【35】用 57 种可能的源语言训练了一个多对英语模型，而最近的模型试图包括更多的语言； Aharoni、Johnson 和 Firat (2019) 【36】为 102 种语言与英语之间的 MT 模型以及 59 种语言之间的多对多 MT 模型训练。尽管这是一项令人印象深刻的壮举，但结果表明，随着语言对数量的增加，在所有语言中保持较高的翻译性能并非易事（Mueller 等人，2020 年【37】；Aharoni、Johnson 和 Firat 2019 年【36】；Arivazhagan 等人，2019 年【38】）

对于高资源语言对来说是个坏消息，因为多语言模型的性能通常低于特定于语言方向的双语模型。然而，资源不足的语言通常会从多语言中获益。研究还表明，对于零镜头翻译，培训中包含的语言越多，效果越好（Aharoni、Johnson和Firat 2019【36】；Arivazhagan等人2019【38】）。跨语言对可用的训练数据量往往存在巨大的不平衡，对于资源不足的双语数据进行上采样是有益的。而，对低资源对进行上采样会损害高资源对的性能（Arivazhagan 等人，2019 年【38】）。

一些工作表明，限制因素是模型的容量（即参数的数量）。虽然具有共享参数的多语言训练可以增加迁移，但增加语言数量会降低模型的每个任务容量。Arivazhagan 等人，2019 年【38】表明模型容量可能是迁移中最重要的因素；他们表明，更大的模型（更深或更宽）在整体上表现出更好的翻译性能，更深的模型对于低资源语言尤其成功，而更宽的模型似乎更容易过度拟合。

4.2.2 Multilingual Unsupervised Models

如3.2.2所述，无监督MT在低资源语言中的表现非常差，提高性能的方法之一是利用其他语言的数据。Sen et al. (2019b) 【39】证明多语言无监督 NMT 模型在每个语言对中的表现都优于双语模型，但他们只对高资源语言对进行了实验。后来的工作（Garcia 等人，2021 年【40】；Ko 等人，2021 年【41】）直接解决了在相关语言中存在并行数据的情况下，低资源语言对的无监督 NMT 问题。更具体地说，他们使用来自第三种语言 (Z) 的数据来改进低资源语言 (X) 和高资源语言 (Y) 之间的无监督 MT。在这两项工作中，他们都假设 X 与 Z 密切相关，并且 Y 和 Z 之间存在并行数据。

4.3 Large-scale Multilingual pre-training

大规模预训练语言模型的成功，如ELMo和BERT启发研究人员将相关技术应用于机器翻译。跨语言语言模型（XLM；Conneau和Lample 2019【23】）是直接应用BERT掩蔽语言模型（MLM）从平行语言学习的目标数据训练数据由连接的句子对组成，所以模型学习同时从两种语言的上下文中预测mask词的身份。XLM在原论文中没有应用于低资源机器翻译，但被证明可以改进无监督机器翻译，以及低资源语言中的语言建模和自然语言推理。

第一个真正成功的大规模 MT 预训练模型是 mBART (Liu et al.2020)【25】和 MASS (Song et al.2019b)【24】，它们证明了 NMT 在有监督、无监督和半监督（即具有回译）条件，包括低资源语言对。这些模型的想法是使用 2 种或更多语言的大量单语数据来训练嘈杂的自动编码器。自动编码器是基于Transformer的编码器-解码器，噪声是通过随机mask部分输入句子引入的。一旦自动编码器被训练收敛，它的参数就可以用来初始化 MT 模型，该模型被正常训练。使用 mBART，Liu 等人。 (2020) 【42】能够证明无监督 NMT 在遥远的低资源语言对尼泊尔语-英语和僧伽罗语-英语上工作，并展示了在古吉拉特语-英语等低资源语言对中监督 NMT 的改进。

最初的mBART是在25种不同的语言上训练的，它包含在HuggingFace（Wolf等人，2020年）【44】中，使得它可以直接用于预训练。此后，它被扩展到mBART50（Tang等人，2020年）【43】，这是一个基于平行和单语数据的混合训练，包括50种不同的语言（顾名思义）；mBART50也可在HuggingFace上获得。最近的一项案例研究（Birch et al.2021）【45】表明，mBART50可以与集中的数据收集技术相结合，为低资源语言对（本例中为普什图语-英语）快速开发特定领域、最先进的机器翻译系统。

最近一种称为 mRASP (Lin et al. 2020) 【46】的多语言预训练方法在一系列 MT 任务中表现出强大的性能：中、低和极低资源。 mRASP 使用由 MUSE (Conneau et al. 2018) 【47】生成的无监督词对齐来执行随机替换单词及其在另一种语言中的翻译，目的是使具有相似含义的跨多种语言的单词在表示空间中更接近。对于一些资源非常少的语言对，例如白俄罗斯语-英语，它们显示出高达 30 BLEU 点的增益。 mRASP2 (Pan et al. 2021) 【48】通过将单语数据整合到训练中来扩展这项工作。

5 Use of external resources and linguistic information

对于某些语言，可以使用某些语言信息的替代资源。如（1）语言学工具，（2）双语词典。它们可以提供有关源语言或目标语言（在标记和句法分析的情况下）以及并行数据中可能不存在的附加词汇表（在双语词典和术语的情况下）的更丰富的信息。尽管总体而言，MT 在这方面已经有大量工作，但只有一些已应用于真正的低资源环境。

5.1 Linguistic tools and resources

只要语言工具和资源可用，其他语言分析（例如词性标注、词形还原和解析）可以通过提供表面形式的抽象来帮助减少稀疏性。已经开发了许多不同的方法来在 NMT 中整合语言信息。这些包括形态分割、分解表示（第 5.1.2 节）、多任务学习（第 5.1.3 节）、注释交织（第 5.1.4 节）和句法重新排序（第 5.1.5 节）。

5.1.1 Morphological segmentation

训练 NMT 系统的一个关键部分是子词分割的选择，这是一种预处理技术，能够用固定数量的单元表示无限词汇表，并更好地概括较短的单元。对于资源匮乏的语言，这一点更为重要，因为遇到训练时未见过的单词的可能性更大。

略

5.1.2 Factored models

分解的源和目标表示，被设计为一种将单词单元分解为组成部分的方法，这有助于提供某种程度的复合抽象从原来的词形。例如，一个词形可以用它的引理和词性来表示，它们一起可以用来恢复原始的表面形式。这种类型的建模对于形态丰富的语言（其中许多已经是低资源的）特别有用，因为大量的表面形式会导致更大的数据稀疏性，并且通常需要更多的数据。

略

5.1.3 Multi-task learning

多任务学习更多地被视为一种迫使模型通过训练模型生成二次输出（在本例中为语言分析）以及翻译来学习更好的单词形式内部表示的方法。

MT 多任务学习的初始工作并未集中在低资源场景上。梁等人 (2016) 【49】探索了不同的翻译多任务设置（英语-德语测试），其中他们使用解析作为翻译的辅助任务的设置，只要模型没有过度训练，这似乎有助于翻译性能解析任务。Niehues 和 Cho (2017) 【50】将词性 (PoS) 标记和命名实体识别作为 MT 的辅助任务进行实验，并测试不同程度的共享。他们发现仅共享编码器（即单独的注意力机制和解码器）效果最好，并且在模拟的低资源 DE→EN 场景中使用这两个辅助任务可以提高翻译性能。

5.1.4 Interleaving of linguistic information in the input

除了比较分解表示和多任务解码外，N˘ adejde 等人 (2017) 【51】还介绍了一种集成目标端句法信息的新方法，他们称之为交织。这个想法是通过在包含与其相关的信息的每个token之前添加一个单独的token来使用token级信息（在他们的情况下为 CCG 超级标签）来注释训练数据的目标端，以便模型学习生成注释译文。

Sánchez-Cartagena、Pérez-Ortiz 和 Sánchez-Martínez (2020) 【52】在与 RNN 和 Transformer 架构以及 8 个语言方向（尤其是低资源语言）的系统比较中发现，交错（具有部分语音信息和形态标签）是有益的，这与 (N˘ adejde et al. 2017) 【51】的结论一致。有趣的是，他们发现（i）在源句中交织语言信息有帮助，形态信息比 PoS 标签更好，（ii）在目标句中交织也有帮助，但 PoS 标签比形态信息更有效，尽管翻译更符合语法，增加了形态信息。

5.1.5 Syntactic Reordering

句法重新排序。除了用作输入的附加形式之外，句法信息还可以先验地用于通过重新排序句子中的单词以更好地匹配所需的句法顺序来促进翻译任务。Murthy、Kunchukuttan 和 Bhattacharyya (2019)【53】发现，当从高资源语言对迁移到低资源语言对时，这对迁移学习设置中的资源非常少的语言特别有效（参见第 4.1 节）。从孟加拉语、古吉拉特语、马拉地语、马拉雅拉姆语和泰米尔语翻译成印地语的测试，从母语方向英语→印地语转移后，他们在源端应用句法重新排序规则以匹配子源语言的句法顺序，导致翻译质量显着提高。

5.2 Bilingual lexicons

双语词典是一种语言中的术语（单词或短语）列表，与其在第二语言中的翻译相关联。双语词典的优点是它们很可能提供在可用并行数据中没有出现的专业术语或不常用术语，缺点是它们不提供有关上下文中术语翻译的信息，特别是当一个术语有几种可能的翻译时同一个词。然而，它们可能是值得开发的重要资源，因为它们为并行数据提供补充信息，并且可能更容易获得且生产成本更低。

迄今为止，在 MT 中利用双语词典的方法可以总结如下：（i）作为种子词典来初始化无监督 MT（Lample et al. 2018b【54】; Duan et al. 2020【55】）（如第 3.2.2 节所述）， (ii) 作为一个额外的评分组件，特别是为了覆盖很少见的词汇（Arthur, Neubig, and Nakamura 2016【56】; Feng et al. 2017【57】）和 (iii) 作为源句中的注释，通过添加来自词典的翻译在它们相应的源词之后（Dinu et al. 2019【58】）或通过在代码切换式设置中替换它们（Song et al. 2019a【59】）。

关于在预训练的多语言模型中使用词汇的最新研究（Lin等人，2020年，MRASP【46】）显示了最大的希望。在这里，单词的翻译在训练前被替换到源句中，目的是使跨多种语言具有相似含义的单词在表达空间中更接近。请参阅第4.3节了解更多详细信息。

6 Model-centric Techniques

在前两部分中，我们已经研究了如何使用单语数据和来自其他语言对的数据来改进翻译。在本节中，我们将探讨旨在通过调查更好的建模、培训和推理技术，更好地利用现有数据的工作。

近年来，机器翻译系统已经收敛到一个相当标准化的体系结构：一个序列到序列的神经网络模型，带有编码器和自回归解码器，通常作为变压器实现（Vaswani等人，2017【60】），尽管仍然使用循环模型（Bahdanau、Cho和Bengio 2015【61】）。训练是在一个平行语料库上进行的，通过最小化目标译文的交叉熵（以源语句为条件）。如第3节所述，单语示例（如果可用）通常会转换为平行句子。一旦模型被训练，翻译通常通过具有启发式长度控制的波束搜索生成，其近似于（尽管不是非常准确）对所学习的条件概率分布的最大后验概率（MAP）推断。

这种方法在高资源语言对上的 MT 非常成功，其中有足够多的高质量平行和单语文本覆盖各种领域，以消除模型可能具有的大部分未对齐的归纳偏差。然而，对于低资源语言对，模型的归纳偏差变得更加突出，特别是当模型在训练分布之外运行时，当训练数据对语言的覆盖率很低时经常会发生这种情况。因此，设计神经网络架构以及训练和推理程序以使其对低资源条件更加鲁棒可能是有益的，例如通过显式建模翻译任务固有的任意不确定性，因为其性质是许多- 对多映射。

在本节中，我们将回顾最近的机器学习技术，这些技术可以改善低资源机器翻译，例如元学习，用于数据高效的领域适应和多语言学习（第6.1节），用于明确量化不确定性的贝叶斯和潜变量模型（第6.2节），以及交叉熵训练（第6.3节）和波束搜索推断（第6.4节）的替代方案。

6.1 Meta Learning

在第 4 节中，我们讨论了通过在联合学习或迁移学习方案中组合不同语言对的训练集，使用多语言训练来改进低资源 MT。这种方法的一种更极端的形式涉及元学习的应用：不是训练系统直接在单个任务或固定任务集（在我们的例子中为语言对）上表现良好，而是可以训练系统以快速适应仅使用少量训练示例的新任务，只要该任务与（元）训练期间看到的任务足够相似即可。

训练完成后，微调程序可以直接应用于任何新任务。顾等人 (2018) 【62】通过元训练对合成的低资源任务应用 MAML，该任务是通过随机子采样高资源语言对的平行语料库获得的，然后对真正的低资源语言对进行微调，获得了实质性的改进。

元学习的另一种方法涉及训练记忆增强网络，该网络在执行时接收特定于任务的训练示例并维护它们的表示，它们用于动态适应（Vinyals 等人，2016 年【63】；Santoro 等人，2016 年【64】）。 Lake (2019) 【65】将记忆增强网络应用于合成序列到序列任务，以评估各种条件下的分布外泛化。奇怪的是，非常大的语言模型，例如 GPT-2（Radford 等人，2019 年【66】），特别是 GPT-3（布朗等人，2020 年【67】），即使没有对网络架构或训练程序进行任何修改，也表现出这种元学习能力，表明元学习本身可以从足够多的数据中学习。事实上，GPT-3 在翻译成英语时，即使使用单个翻译示例，也能达到接近 SOTA 的质量，适用于多种源语言，包括罗马尼亚语，一种中低资源语言。

6.2 Latent variable models

只要有足够的模型能力和训练数据，自回归NMT模型原则上可以表示任意概率分布。然而，在资源不足的情况下，模型的归纳偏差可能不足以实现良好的泛化。

各种方法试图通过引入潜在变量来解决这些问题，这些随机变量既不是作为源句观察到的，也不是作为目标句观察到的，而是由模型内部推断出来的。这可以通过源条件参数化(只在目标句子上应用潜在变量模型)或联合参数化(同时应用于源和目标句子)来实现。

潜在变量模型在诱导偏差工程中具有更高的模型表达能力和更大的自由度，但代价是更复杂和计算上昂贵的训练和推理。为此，我们使用了蒙特卡罗采样或MAP推断等潜在变量的近似技术，通常基于变分自编码器框架(VAE) (Kingma和Welling 2014【68】;Rezende, Mohamed，和Wierstra 2014【69】)。

在Zhang等人(2016)【70】最早的变分NMT方法中，使用了源条件参数化，潜变量是一个固定维连续变量，旨在捕获目标句子的整体信息。训练是通过最大化训练样本的条件交叉熵的下界，即证据下界(ELBO)来完成的。它是使用一个被称为推理网络的辅助模型组件来计算的，该辅助模型组件将潜在变量的后验近似为一个对角高斯条件下的源句和目标句。在推断过程中，潜在变量要么从先验采样，要么更常见地近似为其模态(这也是其均值)。

这个基本方法,类似于变分图像VAEs和变分语言模型的鲍曼et al.(2016)【71】,增加了表达能力有限自回归NMT因为fixed-dimensional单峰分布并不特别适合表示一个句子的可变性,但是它可以扩展以各种方式。

潜变量 MT 也被应用于完全低资源的语言对，使用模型，其中潜在变量被设计为具有语言驱动的归纳偏差。 Ataman、Aziz 和 Birch（2019 年【72】）在分层模型中引入了具有潜在词形态的 NMT 模型，允许对词级表示和字符级生成进行建模。这有利于形态丰富的语言，其中包括许多突厥语和非洲低资源语言。这些语言使用其复杂的形态来表达句法和语义上的细微差别，而纯粹的无监督和贪婪的 BPE 预处理可能无法捕捉到这些细微差别，尤其是当 BPE 词汇在小型语料库上进行训练时。

6.3 Alternative training objectives

替代训练目标
当训练自回归模型以优化交叉熵损失时，它仅在训练期间暴露于真实示例。当此模型随后用于通过祖先采样、波束搜索或其他推理方法生成序列时，它必须逐步扩展它自己生成的前缀。由于该模型通常无法准确学习目标文本的“真实”概率分布，因此它作为输入接收到的目标前缀将是不分布的，这会导致对下一个标记概率的估计变得更加不准确.这个问题被 Ranzato 等人命名为曝光偏差。 (2016)【73】，可以与每个额外的标记复合，并可能导致生成的文本最终变得完全无意义。理论上，无论任务如何，都会发生暴露偏差，但尽管在高资源环境中其影响被认为很小（Wu 等人，2018 年），但在低资源 MT 中，它已被证明与幻觉现象有关，其中系统生成的翻译部分流畅，但包含源句子中不存在的虚假信息（Wang 和 Sennrich 2020）【74】。

为了避免暴露偏差，已经提出了许多交叉熵训练的替代方案，这些都涉及在训练期间暴露模型以完成或者自己生成的部分目标序列。

正则化技术也已应用于低资源 MT。Sennrich 和 Zhang (2019) 【75】评估了不同的超参数设置，特别是批量大小和 dropout 正则化，针对德语→英语，具有不同数量的训练数据和低资源韩语→英语。 Müller、Rios 和 Sennrich（2020 年）【76】针对高资源（德语→英语）和低资源（德语→罗曼什语）对，针对分布外 MT 试验了各种训练和推理技术。对于低资源对，他们报告了使用子词正则化（Kudo 2018）【77】、防御性蒸馏和源重建的改进。 Provilkov、Emelianenko 和 Voita (2019)【78】提出了另一种子词正则化形式，称为 BPE dropout，报告了对各种高资源和低资源语言对的改进。 He、Haffari 和 Norouzi（2020）【79】将动态编程方法应用于 BPE 子词标记化，在训练期间评估将每个目标词标记为子词的所有可能方法，并在推理时计算最佳标记化。然而，由于他们的方法很慢，他们只使用它来标记训练集，然后在其上训练一个常规的 Transformer 模型，将其与源词的 BPE dropout 相结合，报告对高资源和中等资源语言对的改进。

6.4 Alternative inference algorithms

在 NMT 中，通常使用一种具有启发式长度归一化的波束搜索算法来执行推理14（Jean 等人，2015 年；Koehn 和 Knowles 2017 年）。表面上，波束搜索寻求近似最大后验 (MAP) 推理。然而，已经注意到增加光束大小会提高近似的准确性，但通常会在某个点之后降低翻译质量（Koehn 和 Knowles 2017）

7 Shared Task

MT是一个很大的领域，很多有趣的论文一直在发表。由于语言对、工具包和设置的多样性，很难确定哪些研究会在已发表的实验之外产生影响。共享任务提供了复制和组合研究的机会，同时保持训练和测试数据不变。

在本节中，我们调查了包含低资源语言对的共享任务，并从相应的系统描述论文集中提取了共同主题，将之前在本调查中描述的方法放入透视图中。而不是尝试量化不同技术的使用，我们旨在描述如何利用最常用的技术，特别是对于高性能系统，为低资源语言对的训练系统提供一些实用的建议。在调查常用技术（第 7.2 节）之前，我们首先简要描述具有低资源对的共享任务（第 7.1 节）。

7.1 Low-resource MT in Shared Tasks

有许多专注于 MT 的共享任务，可以追溯到最早的 WMT 共享任务（Koehn 和 Monz 2006）【80】。然而，他们倾向于关注资源丰富的欧洲语言和中文。专门针对低资源 MT 的任务是相当新的，与最近将 MT 扩展到更大范围的语言对的兴趣相吻合。

我们选择特别关注由 WMT（WMT 机器翻译会议）、IWSLT（国际口语翻译会议）、WAT（亚洲翻译研讨会）和 LowResMT（低资源机器翻译）运行的共享任务。在表 3 中，我们列出了专注于低资源对的共享 MT 任务。除了翻译任务，我们应该提到 WMT 的语料库过滤任务专门解决了低资源 MT（Koehn 等人，2019 年，2020 年）【81】。

在这里插入图片描述

7.2 Commonly used Techniques

在本节中，我们将回顾参与者对低资源 MT 共享任务所做的选择，重点关注那些特别普遍、效果特别好的技术以及特定于特定语言或语系的选择。我们以大致逐步的方式描述这些选择：从数据准备（第 7.2.1 节）和数据处理（第 7.2.2 节）开始，然后进行模型架构选择（第 7.2.3 节），利用额外的数据，包括反向翻译、预训练和多语言（第 7.2.4 节），最后研究模型转换和定型，包括集成、知识蒸馏和微调（第 7.2.5 节）。

7.2.1 Data preparation

训练 NMT 模型的一个重要的初始步骤是识别可用数据（参见第 2 节）并根据数据集的嘈杂度和域外程度对其进行过滤，或者使用替代策略来指示域或数据质量（即标记）。那么参与者在使用（或排除）数据源、过滤和清理数据以及使用域标签等元信息方面倾向于做出哪些选择？

数据选择，使用官方给的。

数据清洗和过滤。虽然没有详尽地报告，但许多提交的数据对并行和单语数据应用了一定程度的数据清理和过滤。在最简单的形式中，这意味着根据句子的长度（如果太长）和平行句子的长度之间的比率（如果太不同）来排除句子。一些团队还会删除重复项（例如 Li et al. (2019a)）。更严格的清理包括消除句子中字母数字字符少于指定百分比的句子（取决于语言的脚本），那些被识别为属于另一种语言（例如使用语言识别）或那些不太可能属于同一分布的句子作为训练数据（例如使用过滤技术，如 Moore-Lewis (Moore and Lewis 2010)）。数据过滤也是反向翻译数据的常用技术（请参阅下面有关数据增强的段落），通常使用类似的过滤技术，例如双条件交叉熵过滤 (Junczys-Dowmunt 2018) 来仅保留最干净和最相关的合成并行句子。不幸的是，很少评估数据过滤的效果，可能是因为它涉及昂贵的重新训练。

7.2.2 Data pre-processing

数据预处理。使用的数据预处理步骤存在一些变化。例如，已经表明，对于像捷克语-英语这样的高资源语言对，在应用子词分割之前并不总是需要应用标记化和 truecasing 步骤 (Bawden et al. 2019)。我们没有观察到明确的模式，许多系统应用了所有步骤，有些系统不包括标记化（Wu 等人，2020 年泰米尔语）和 truecasing。在不同的可能预处理步骤中，我们审查参与者关于标记化(tokenisation)、子词分割和音译/字母映射（在使用不同脚本的语言之间进行翻译时相关）的选择。

tokenisation。如果在子词分割之前使用分词器，它通常是特定于语言的，特别是对于所讨论的低资源语言。例如 IndicNLP15(Kunchukuttan 2020) 被广泛用于印度语言（例如，用于涉及古吉拉特语和泰米尔语的共享任务），并且许多高棉语-英语提交也使用了高棉语特定的标记器。对于欧洲语言，Moses 标记器（Koehn 等人，2007 年）仍然是最常用的选项。

子词切分。所有参与者都执行某种子词分割，大多数参与者使用句子（Kudo 和 Richardson 2018）16 或 subword_nmt 工具包（Sennrich、Haddow 和 Birch 2016b）。17尽管 BPE 工具包与古吉拉特语使用的 Abugida 脚本不兼容，泰米尔语和高棉语（在这些脚本中，可以使用两个 unicode 代码点来表示一个字形），我们只找到了一个修改 BPE 以将其考虑在内的组（Shi et al. 2020）。许多团队发现 BPE-dropout（Provilkov、Emelianenko 和 Voita 2020）是一种正则化方法（Knowles 等人，2020b；Libovický 等人，2020 年；Chronopoulou 等人，2020 年）。

子词词汇的大小通常是一个经过调整的参数，尽管并不总是报告测试的不同值的范围。令人惊讶的是，所使用的子词词汇量存在显着差异，并且并不总是有明确的模式。尽管资源设置较少，但许多系统使用相当大的子词词汇表（30k-60k 合并操作）。也有例外：大量泰米尔语-英语系统使用小词汇表（6k-30k 合并操作），这可能归因于泰米尔语形态丰富的性质以及数据的稀缺性。

联合子词分割相当普遍。当源语言和目标语言相似（例如上索布语德语）以及使用“辅助语言”来弥补资源不足的情况（例如添加捷克语和英语数据）时，使用它的动机特别好。但是，即使在词汇重叠很少的情况下，它也会在某些情况下使用，例如泰米尔语-英语，其中的语言不共享相同的脚本，包括一些得分最高的系统（Shi 等人，2020 年； Wu 等人，2018 年）。尽管很少有系统研究报告，但一种假设可能是即使使用不同的脚本，共享分割也没有缺点；它可以帮助命名实体，从而减少模型的整体词汇量（Ding、Renduchintala 和 Duh 2019）。

音译和字母映射。音译和字母表映射主要用于利用以不同文字编写的相关语言的数据。这尤其适用于涉及印度语言的翻译，这些语言通常有自己的文字。对于古吉拉特语 - 英语任务，许多顶级系统使用印地语 - 英语数据（见下文关于使用其他语言数据的段落）并执行字母映射到古吉拉特语脚本（Li et al. 2019b; Bawden et al. 2019; Dabre等人，2019 年）。对于泰米尔语-英语，Goyal 等人。 (2020) 发现在多语言设置中使用印地语时，有助于将印地语映射到泰米尔语→英语方向的泰米尔语脚本，但没有为英语→泰米尔语带来改进。哈萨克语-英语任务中也使用了音译，特别是增加了土耳其语作为资源较高的语言。托拉尔等人。 (2019) 是一个 topscoring 系统，选择西里尔化土耳其语以增加与哈萨克语的重叠，而 Briakou 和 Carpuat (2019) 选择罗马化哈萨克语以增加与土耳其语的重叠，但仅限于哈萨克语→英语方向

7.2.3 Model architectures and training

尽管在模型中的参数数量和某些训练参数方面可以观察到差异，但社区已经在很大程度上收敛于一个通用架构（transformer (Vaswani et al. 2017)）。鉴于对所使用的其他技术的依赖（这会影响可用数据量），因此对模型和训练参数进行概括尤其棘手。然而，可以看到一些概括，我们在这里回顾。

模型尺寸。尽管并不总是给出系统比较，但一些参与者确实表明架构大小是一个经过调整的参数（Chen 等人，2020 年【82】），尽管这在计算上可能很昂贵，因此并非对所有团队都可行。为提交选择的模型尺寸各不相同，并且尺寸和模型性能之间没有明确和直接的联系。然而，有一些值得评论的一般模式。虽然许多基线模型都很小（对应于transformer-base 或具有较少层的模型），但许多高分团队发现，只要使用额外的技术，就可以训练更大的模型（例如更深或更广），例如单语预训练 (Wu et al. 2020) 或在多语言设置中来自其他语言的额外数据，或在通过旋转 (Li et al. 2019b) 通过更高资源语言或反向翻译 (Chen et al. 2020) 创建合成数据之后; Li 等人，2019b)。例如 Facebook AI 团队 (Chen et al. 2020) 对模型架构进行了微调，开始时为他们的监督英语→泰米尔语基线使用了一个较小的转换器（3 层和 8 个注意力头），但能够增加一次引入了反向翻译数据（到 10 层和 16 个注意力头）。尽管一些系统在使用基于变压器的模型时表现良好（Bawden 等人，2019 年泰米尔语-英语），但许多最好的系统使用更大的模型，例如 Transformer-big（Hernandez 和 Nguyen 2020；Kocmi 2020；Bei 等人） . 2019；魏等人 2020；陈等人 2020）。

替代神经架构。略

7.2.4 Using additional data

本次调查的大部分内容都致力于开发额外资源以弥补低资源语言对数据的缺乏：单语数据（第 3 节）、多语言数据（第 4 节）或其他语言资源（第 5 节）。在共享任务中，以下方法已被证明对于提高低资源场景中的性能非常有效。

回译。大多数高性能系统执行某种数据增强，最常见的是反向翻译，经常迭代使用，尽管也使用前向翻译（Shi et al. 2020【83】; Chen et al. 2020【82】; Zhang et al. 2020b【84】）。对于特别具有挑战性的语言对（例如，对于不太接近的语言之间的资源非常少），用于生成反向翻译的初始模型必须具有足够高的质量。例如，一些顶级古吉拉特语-英语系统在反向翻译之前采用预训练来提高初始模型的质量（Bawden 等人，2019 年；Bei 等人，2019 年）。参与者并不总是报告执行的反向翻译的迭代次数，但是那些经常引用这样一个事实，即在两次迭代之后几乎看不到改进（Chen 等人，2020 年）。标记的反向翻译，其中将伪标记添加到反向翻译的句子中，以区别于之前已证明可提供改进的真正并行数据（Caswell、Chelba 和 Grangier 2019）。由于添加了反向翻译标签，一些参与者报告了收益（Wu 等人 2020；Chen 等人 2020；Knowles 等人 2020a），尽管 Goyal 等人。 (2020) 发现标记的反向翻译在泰米尔语-英语的多语言设置中表现不佳。

来自其他语言的合成数据。许多性能最好的系统成功地利用了相关语言的平行语料库。古吉拉特语-英语的两个表现最佳的系统使用印地语-英语平行语料库来创建合成的古吉拉特语-英语数据（Li et al. 2019b; Bawden et al. 2019）。两者都利用了这样一个事实，即一旦印地语被音译为古吉拉特语文字，印地语和古吉拉特语之间就存在高度的词汇重叠。李等人。 (2019b) 选择音译印地语，然后使用交叉熵过滤选择最佳句子，Bawden 等人。 (2019) 选择训练一个印地语→古吉拉特语模型，他们用它来翻译语料库的印地语部分。通过更高资源相关的语言也被发现对其他语言对很有用：对于哈萨克语-英语，俄语是首选语言（Li et al. 2019b; Toral et al. 2019; Dabre et al. 2019; Budiwati et al. 2019)，对于巴斯克语-英语，西班牙语被用作枢轴 (Scherrer 2018; Sánchez-Cartagena 2018)，发现

使用语言建模目标进行迁移学习。语言建模目标的首选是 mBART用于泰米尔语-英语）、XLM 和 MASS 。一些顶级系统使用了这些语言建模目标，但它们的使用并不是全面的，使用翻译目标的预训练可以说更常见。鉴于预训练模型在 NLP 中的成功，这可能令人惊讶。这些技术没有被系统地使用的一个可能解释是，从头开始训练它们在计算上可能很昂贵，并且共享任务的约束性质意味着不鼓励参与者使用预训练的语言模型。

从其他 MT 系统迁移学习。参与者使用的另一种常用技术是涉及其他语言对的迁移学习。许多团队利用了一个高资源相关的语言对。例如，对于哈萨克语-英语，使用土耳其语-英语（Briakou 和 Carpuat 2019）和俄语-英语（Kocmi 和 Bojar 2019）进行预训练，Dabre 等人。 (2019) 使用印地语-英语对古吉拉特语-英语进行了预训练，捷克语-德语被用于对上索布语-德语进行了预训练（Knowles 等人，2020b）。

另一种成功的方法是使用资源丰富但不一定相关的语言对。例如，CUNI 系统使用捷克语-英语预训练 Inuktitut (Kocmi 2020) 和古吉拉特语 (Kocmi and Bojar 2019)，Bawden 等人。 (2020) 发现英语-德语的预培训与泰米尔语-英语的 mBART 培训一样有效。最后，许多团队选择了多语言预训练，涉及所讨论的语言对和一种更高资源的语言或几种更高资源的语言。吴等人。 (2020) 使用 mRASP 方法：一种通用的多语言模型，涉及英语与普什图语、高棉语、泰米尔语、因纽特语、德语和波兰语之间的语言数据，然后针对各个低资源语言对进行微调。

多语言模型。除了上面提到的预训练策略之外，多语言模型在共享任务提交中占有重要地位。最常用的框架是 Johnson 等人提出的通用编码器-解码器模型。 (2017)。一些参与者选择包括选定的（相关）语言。威廉姆斯等人。 (2018) 使用西班牙语来提升巴斯克语-英语翻译，发现添加法语数据会降低结果。 Goyal 和 Sharma（2019 年）将印地语添加为古吉拉特语-英语和泰米尔语-英语的附加编码器语言，他们测试将印地语添加到源端或目标端，具体取决于泰米尔语是源语言还是目标语言（Goyal 等人，2020 年））。其他参与者选择使用更多的语言。张等人。 (2020b) 为泰米尔语-英语和 Hokamp、Glover 和 Gholipour Ghalandari（2019 年）选择为古吉拉特语-英语训练所有 WMT 语言的多语言模型（在结果表中居中）。对多语言系统中资源较少的语言进行上采样是一个重要因素，无论是将多语言系统用作主要模型还是用于预训练（Zhang et al. 2020b; Wu et al. 2020）。

7.2.5 Model transformation and finalisation

额外的技术，不是特定于低资源 MT，通常应用于模型构建的最后阶段，它们可以为已经训练的模型提供显着的收益。我们在这里重新组合知识蒸馏（我们认为是一种模型转换）以及模型组合和微调（可以被认为是模型定型技术）

知识蒸馏。知识蒸馏也是一种经常使用的技术，似乎带来的收益很小，尽管不像回译或集成那样经常使用。知识提炼（Kim 和 Rush 2016）利用大型教师模型来训练学生模型。教师模型用于翻译训练数据，从而在目标端生成合成数据。许多团队将其与反向翻译 (Xia et al. 2019) 或微调 (Li et al. 2019b) 结合使用，反复应用。贝等人。 (2019) 将知识蒸馏数据与真实和合成的并行数据混合，以训练新模型以实现 BLEU 的收益。

模型组合。集成是几个独立训练的模型的组合，大量参与者使用它来获得优于单个系统的收益。几个团队试图创建不同模型的集成，包括深度模型和宽模型。例如，Wu 等人 (2020) 对更大的模型（更大的前馈维度，然后是更深的模型）进行了集成实验，包括使用不同的采样策略来增加不同模型的数量。集成通常会带来更好的结果，但并非总是如此。吴等人。 (2020) 发现 9 模型合奏最适合将高棉语和普什图语转换为英语，但他们发现对于英语转换为高棉语和普什图语，单个模型是最好的。组合多个模型的第二种方法是使用附加模型重新排列初始模型的 n 最佳假设。 Libovický 等。 (2020) 尝试从右到左重新评分（反对通常产生的从左到右的假设），但没有看到上索布-德语的任何收益。陈等人。 (2020) 测试泰米尔语-英语的嘈杂频道重新排名，但也没有看到收益，尽管因纽特语→英语看到了一些收益，大概是因为高质量的单语新闻数据可用于训练良好的英语语言模型。

微调。之前在预训练的上下文中提到过，大量团队在多个上下文中使用了微调。在对语言模型目标或其他语言对（见上文）进行预训练后，不可避免地会使用它来使模型适应所讨论的语言方向。通过对真正的并行数据进行微调，它还经常用于在反向翻译数据上训练的模型（Sánchez-Cartagena、PérezOrtiz 和 Sánchez-Martínez 2019）。许多顶级系统使用的最终提升是通过对开发集进行微调来实现的（Shi et al. 2020; Chen et al. 2020; Zhang et al. 2020b; Wei et al. 2020）。这是并非所有团队都做出的选择，其中一些团队选择将其保留为保留集，特别是为了避免过度拟合的风险

8 Conclusion

未来领域

海量多语言模型。 mBART (Liu et al. 2020) 和 mRASP (Pan et al. 2021) 等多语言预训练模型的惊人成功仍需进一步研究。我们应该能够回答一些问题，例如收益是更多来自模型的大小，还是来自模型训练的语言数量，还是来自使用的绝对数量的数据。还有一些关于如何处理未包含在预训练模型中的语言的问题。

吸收外部知识。我们永远不会有足够的并行数据，而且对于许多语言对来说，由于缺乏高资源相关语言和单语数据，情况更加困难。我们知道并行数据不是学习翻译的有效方式。我们还没有充分探索诸如什么是更有效的翻译知识编码方式——双语词典、语法或本体论——或者哪种类型的知识对创建 MT 系统最有帮助以及如何收集这些知识等问题。还需要进一步研究如何最好地整合这些资源：它们应该直接整合到模型中还是我们应该使用它们来创建合成的并行数据？

稳健性。现代 MT 系统是大型神经网络，随着生产系统遇到的数据分布与训练数据的分布越来越不同（Lapuschkin 等人，2019 年；Hupkes 等人，2019 年； Geirhos 等人，2020 年）。这通常发生在翻译应用程序中，在这些应用程序中，语言域、主题和语域可能会发生极大的变化，并且会随着时间的推移而迅速变化。尤其是在资源匮乏的环境中，我们通常仅限于来自有限领域集的旧训练语料库。因此，找到使系统对分布变化具有鲁棒性的方法非常重要。这是一般机器学习中的一个重要研究方向，但由于可能产生幻觉（Martindale et al. 2019；Raunak、Menezes 和 JunczysDowmunt 2021），这可能会误导用户，因此它在 MT 中具有特定的角度。我们需要找到方法让系统检测到分布异常的情况，并在理想情况下避免产生幻觉，或者至少警告用户输出可能具有误导性。

9 Referemces

Tiedemann J. Parallel data, tools and interfaces in OPUS[C]//Lrec. 2012, 2012: 2214-2218.
Gibadullin I, Valeev A, Khusainova A, et al. A survey of methods to leverage monolingual data in low-resource neural machine translation[J]. arXiv preprint arXiv:1910.00373, 2019.
Baziotis C, Haddow B, Birch A. Language model prior for low-resource neural machine translation[J]. arXiv preprint arXiv:2004.14928, 2020.
Bertoldi N, Federico M. Domain adaptation for statistical machine translation with monolingual resources[C]//Proceedings of the fourth workshop on statistical machine translation. 2009: 182-189.
Bojar O, Tamchyna A. Improving translation model by monolingual data[C]//Proceedings of the Sixth Workshop on Statistical Machine Translation. 2011: 330-336.
Sennrich R, Haddow B, Birch A. Improving neural machine translation models with monolingual data[J]. arXiv preprint arXiv:1511.06709, 2015.
Currey A, Miceli-Barone A V, Heafield K. Copied monolingual data improves low-resource neural machine translation[C]//Proceedings of the Second Conference on Machine Translation. 2017: 148-156.
Hoang V C D, Koehn P, Haffari G, et al. Iterative back-translation for neural machine translation[C]//Proceedings of the 2nd Workshop on Neural Machine Translation and Generation. 2018: 18-24.
Sánchez-Martínez F, Sánchez-Cartagena V M, Pérez-Ortiz J A, et al. An English-Swahili parallel corpus and its use for neural machine translation in the news domain[C]//Proceedings of the 22nd Annual Conference of the European Association for Machine Translation. 2020: 299-308.
Lample G, Conneau A, Denoyer L, et al. Unsupervised machine translation using monolingual corpora only[J]. arXiv preprint arXiv:1711.00043, 2017.
Artetxe M, Labaka G, Agirre E, et al. Unsupervised neural machine translation[J]. arXiv preprint arXiv:1710.11041, 2017.
Edman L, Toral A, van Noord G. Low-Resource Unsupervised NMT: Diagnosing the Problem and Providing a Linguistically Motivated Solution[C]//Proceedings of the 22nd Annual Conference of the European Association for Machine Translation. 2020: 81-90.
Bawden R, Bogoychev N, Germann U, et al. The University of Edinburgh’s Submissions to the WMT19 News Translation Task[J]. arXiv preprint arXiv:1907.05854, 2019.
Chronopoulou A, Stojanovski D, Fraser A. Improving the Lexical Ability of Pretrained Language Models for Unsupervised Neural Machine Translation[J]. arXiv preprint arXiv:2103.10531, 2021.
Fadaee M, Bisazza A, Monz C. Data augmentation for low-resource neural machine translation[J]. arXiv preprint arXiv:1705.00440, 2017.
Arthaud F, Bawden R, Birch A. Few-shot learning through contextual data augmentation[J]. arXiv preprint arXiv:2103.16911, 2021.
Mikolov T, Chen K, Corrado G, et al. Efficient estimation of word representations in vector space[J]. arXiv preprint arXiv:1301.3781, 2013.
Pennington J, Socher R, Manning C D. Glove: Global vectors for word representation[C]//Proceedings of the 2014 conference on empirical methods in natural language processing (EMNLP). 2014: 1532-1543.
Qi Y, Sachan D S, Felix M, et al. When and why are pre-trained word embeddings useful for neural machine translation?[J]. arXiv preprint arXiv:1804.06323, 2018.
Ramachandran P, Liu P J, Le Q V. Unsupervised pretraining for sequence to sequence learning[J]. arXiv preprint arXiv:1611.02683, 2016.
Peters M E, Neumann M, Iyyer M, et al. Deep contextualized word representations. arXiv 2018[J]. arXiv preprint arXiv:1802.05365, 1802, 12.
Devlin J, Chang M W, Lee K, et al. Bert: Pre-training of deep bidirectional transformers for language understanding[J]. arXiv preprint arXiv:1810.04805, 2018.
Lample G, Conneau A. Cross-lingual language model pretraining[J]. arXiv preprint arXiv:1901.07291, 2019.
Song K, Tan X, Qin T, et al. Mass: Masked sequence to sequence pre-training for language generation[J]. arXiv preprint arXiv:1905.02450, 2019.
Liu Y, Gu J, Goyal N, et al. Multilingual denoising pre-training for neural machine translation[J]. Transactions of the Association for Computational Linguistics, 2020, 8: 726-742.
Zoph B, Yuret D, May J, et al. Transfer learning for low-resource neural machine translation[J]. arXiv preprint arXiv:1604.02201, 2016.
Nguyen T Q, Chiang D. Transfer learning across low-resource, related languages for neural machine translation[J]. arXiv preprint arXiv:1708.09803, 2017.
Dabre R, Nakagawa T, Kazawa H. An empirical study of language relatedness for transfer learning in neural machine translation[C]//Proceedings of the 31st Pacific Asia Conference on Language, Information and Computation. 2017: 282-286.
Kocmi T, Bojar O. Trivial transfer learning for low-resource neural machine translation[J]. arXiv preprint arXiv:1809.00357, 2018.
Aji A F, Bogoychev N, Heafield K, et al. In Neural Machine Translation, What Does Transfer Learning Transfer?[C]//Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics. 2020: 7701-7710.
Bawden R, Birch A, Dobreva R, et al. The University of Edinburgh’s English-Tamil and English-Inuktitut submissions to the WMT20 news translation task[C]//5th Conference on Machine Translation. 2020.
Dong D, Wu H, He W, et al. Multi-task learning for multiple language translation[C]//Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing (Volume 1: Long Papers). 2015: 1723-1732.
Ha T L, Niehues J, Waibel A. Toward multilingual neural machine translation with universal encoder and decoder[J]. arXiv preprint arXiv:1611.04798, 2016.
Johnson M, Schuster M, Le Q V, et al. Google’s multilingual neural machine translation system: Enabling zero-shot translation[J]. Transactions of the Association for Computational Linguistics, 2017, 5: 339-351.
Neubig G, Hu J. Rapid adaptation of neural machine translation to new languages[J]. arXiv preprint arXiv:1808.04189, 2018.
Aharoni R, Johnson M, Firat O. Massively multilingual neural machine translation[J]. arXiv preprint arXiv:1903.00089, 2019.
Mueller A, Nicolai G, McCarthy A D, et al. An analysis of massively multilingual neural machine translation for low-resource languages[C]//Proceedings of The 12th language resources and evaluation conference. 2020: 3710-3718.
Arivazhagan N, Bapna A, Firat O, et al. Massively multilingual neural machine translation in the wild: Findings and challenges[J]. arXiv preprint arXiv:1907.05019, 2019.
Sen S, Gupta K K, Ekbal A, et al. Multilingual unsupervised NMT using shared encoder and language-specific decoders[C]//Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics. 2019: 3083-3089.
Garcia X, Siddhant A, Firat O, et al. Harnessing multilinguality in unsupervised machine translation for rare languages[J]. arXiv preprint arXiv:2009.11201, 2020.
Ko W J, El-Kishky A, Renduchintala A, et al. Adapting High-resource NMT Models to Translate Low-resource Related Languages without Parallel Data[J]. arXiv preprint arXiv:2105.15071, 2021.
Liu Y, Gu J, Goyal N, et al. Multilingual denoising pre-training for neural machine translation[J]. Transactions of the Association for Computational Linguistics, 2020, 8: 726-742.
Tang Y, Tran C, Li X, et al. Multilingual translation with extensible multilingual pretraining and finetuning[J]. arXiv preprint arXiv:2008.00401, 2020.
Wolf T, Chaumond J, Debut L, et al. Transformers: State-of-the-art natural language processing[C]//Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing: System Demonstrations. 2020: 38-45.
Birch A, Haddow B, Miceli-Barone A V, et al. Surprise Language Challenge: Developing a Neural Machine Translation System between Pashto and English in Two Months[C]//Proceedings of the 18th Biennial Machine Translation Summit (Volume 1: Research Track). 2021: 92-102.
Lin Z, Pan X, Wang M, et al. Pre-training Multilingual Neural Machine Translation by Leveraging Alignment Information[J]. arXiv preprint arXiv:2010.03142, 2020.
Conneau A, Lample G, Ranzato M A, et al. Word translation without parallel data[J]. arXiv preprint arXiv:1710.04087, 2017.
Pan X, Wang M, Wu L, et al. Contrastive learning for many-to-many multilingual neural machine translation[J]. arXiv preprint arXiv:2105.09501, 2021.
Luong M T, Le Q V, Sutskever I, et al. Multi-task sequence to sequence learning[J]. arXiv preprint arXiv:1511.06114, 2015.
Niehues J, Cho E. Exploiting linguistic resources for neural machine translation using multi-task learning[J]. arXiv preprint arXiv:1708.00993, 2017.
Nadejde M, Reddy S, Sennrich R, et al. Predicting target language CCG supertags improves neural machine translation[J]. arXiv preprint arXiv:1702.01147, 2017.
Sánchez-Cartagena V M, Pérez-Ortiz J A, Sánchez-Martínez F. Understanding the effects of word-level linguistic annotations in under-resourced neural machine translation[C]. Association for Computational Linguistics, 2020.
Murthy V R, Kunchukuttan A, Bhattacharyya P. Addressing word-order divergence in multilingual neural machine translation for extremely low resource languages[J]. arXiv preprint arXiv:1811.00383, 2018.
Lample G, Ott M, Conneau A, et al. Phrase-based & neural unsupervised machine translation[J]. arXiv preprint arXiv:1804.07755, 2018.
Duan X, Ji B, Jia H, et al. Bilingual dictionary based neural machine translation without using parallel sentences[J]. arXiv preprint arXiv:2007.02671, 2020.
Arthur P, Neubig G, Nakamura S. Incorporating discrete translation lexicons into neural machine translation[J]. arXiv preprint arXiv:1606.02006, 2016.
Feng Y, Zhang S, Zhang A, et al. Memory-augmented neural machine translation[J]. arXiv preprint arXiv:1708.02005, 2017.
Dinu G, Mathur P, Federico M, et al. Training neural machine translation to apply terminology constraints[J]. arXiv preprint arXiv:1906.01105, 2019.
Song K, Zhang Y, Yu H, et al. Code-switching for enhancing NMT with pre-specified translation[J]. arXiv preprint arXiv:1904.09107, 2019.
Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need[C]//Advances in neural information processing systems. 2017: 5998-6008.
Bahdanau D, Cho K, Bengio Y. Neural machine translation by jointly learning to align and translate[J]. arXiv preprint arXiv:1409.0473, 2014.
Gu J, Wang Y, Chen Y, et al. Meta-learning for low-resource neural machine translation[J]. arXiv preprint arXiv:1808.08437, 2018.
Vinyals O, Blundell C, Lillicrap T, et al. Matching networks for one shot learning[J]. Advances in neural information processing systems, 2016, 29: 3630-3638.
Santoro A, Bartunov S, Botvinick M, et al. Meta-learning with memory-augmented neural networks[C]//International conference on machine learning. PMLR, 2016: 1842-1850.
Lake B M. Compositional generalization through meta sequence-to-sequence learning[J]. arXiv preprint arXiv:1906.05381, 2019.
Radford A, Wu J, Child R, et al. Language models are unsupervised multitask learners[J]. OpenAI blog, 2019, 1(8): 9.
Budiwati S D, Fatyanosa T N, Aritsugi M. DBMS-KU Interpolation for WMT19 News Translation Task[C]//Proceedings of the Fourth Conference on Machine Translation (Volume 2: Shared Task Papers, Day 1). 2019: 141-146.
Kingma D P, Welling M. Auto-encoding variational bayes[J]. arXiv preprint arXiv:1312.6114, 2013.
Rezende D J, Mohamed S, Wierstra D. Stochastic backpropagation and approximate inference in deep generative models[C]//International conference on machine learning. PMLR, 2014: 1278-1286.
Zhang B , Xiong D , Su J , et al. Variational Neural Machine Translation[J]. 2016.
Bowman S R, Vilnis L, Vinyals O, et al. Generating sentences from a continuous space[J]. arXiv preprint arXiv:1511.06349, 2015.
Ataman D, Aziz W, Birch A. A latent morphology model for open-vocabulary neural machine translation[J]. arXiv preprint arXiv:1910.13890, 2019.
Ranzato M A, Chopra S, Auli M, et al. Sequence level training with recurrent neural networks[J]. arXiv preprint arXiv:1511.06732, 2015.
Wang C, Sennrich R. On exposure bias, hallucination and domain shift in neural machine translation[J]. arXiv preprint arXiv:2005.03642, 2020.
Sennrich R, Zhang B. Revisiting low-resource neural machine translation: A case study[J]. arXiv preprint arXiv:1905.11901, 2019.
Müller M, Rios A, Sennrich R. Domain robustness in neural machine translation[J]. arXiv preprint arXiv:1911.03109, 2019.
Kudo T. Subword regularization: Improving neural network translation models with multiple subword candidates[J]. arXiv preprint arXiv:1804.10959, 2018.
Provilkov I, Emelianenko D, Voita E. Bpe-dropout: Simple and effective subword regularization[J]. arXiv preprint arXiv:1910.13267, 2019.
He X, Haffari G, Norouzi M. Dynamic programming encoding for subword segmentation in neural machine translation[J]. arXiv preprint arXiv:2005.06606, 2020.
Koehn P, Monz C. Manual and automatic evaluation of machine translation between european languages[C]//Proceedings on the Workshop on Statistical Machine Translation. 2006: 102-121.
Knowles R, Larkin S, Stewart D, et al. NRC systems for low resource German-Upper Sorbian machine translation 2020: Transfer learning with lexical modifications[C]//Proceedings of the Fifth Conference on Machine Translation. 2020: 1112-1122.
Chen P J, Lee A, Wang C, et al. Facebook AI’s WMT20 News Translation Task Submission[J]. arXiv preprint arXiv:2011.08298, 2020.
Shi T, Zhao S, Li X, et al. Oppo’s machine translation systems for wmt20[C]//Proceedings of the Fifth Conference on Machine Translation. 2020: 282-292.
Zhang Y, Wang Z, Cao R, et al. The NiuTrans Machine Translation Systems for WMT20[C]//Proceedings of the Fifth Conference on Machine Translation. 2020: 338-345.