【论文精度】Gradient Vaccine: Investigating and Improving Multi-Task Optimization in Massively Multilingua

十二月的猫

已于 2024-10-06 18:07:54 修改

阅读量500

点赞数 14

分类专栏：论文泛读与精度文章标签：多任务学习损失梯度人工智能深度学习机器学习

于 2024-10-06 18:06:35 首次发布

本文链接：https://blog.csdn.net/m0_67656158/article/details/142723906

版权

论文泛读与精度专栏收录该内容

3 篇文章 0 订阅

订阅专栏

🌈 个人主页：十二月的猫-CSDN博客
🔥 系列专栏： 🏀论文精读_十二月的猫的博客-CSDN博客

💪🏻 十二月的寒冬阻挡不了春天的脚步，十二点的黑夜遮蔽不住黎明的曙光

1. 摘要

包含数十种甚至数百种语言的大规模多语言模型给多任务优化带来了巨大挑战。虽然应用语言无关程序优化多语种联合任务目标是一种常见的做法，但如何正确描述和利用其基本问题结构以提高优化效率仍有待探索。在本文中，我们试图通过损失函数几何的视角来窥探多语言优化的黑箱。我们发现，沿着优化轨迹测量的梯度相似性是一个重要信号，它不仅与语言接近度密切相关，还与模型的整体性能密切相关。这种观察结果帮助我们发现了现有基于梯度的多任务学习方法的一个关键局限，因此我们推导出了一种简单、可扩展的优化程序，并将其命名为 “梯度疫苗”（Gradient Vaccine）。从经验上看，我们的方法在多语言机器翻译和多语言语言模型 XTREME 基准任务中获得了显著的模型性能提升。我们的工作揭示了在多语言优化中正确测量和利用语言接近性的重要性，并对多语言建模以外的多任务学习具有更广泛的意义。

多语言模型，在训练时，不同语言的优化方向存在不同，甚至冲突。因此如何从多任务角度联合训练多个语种非常重要，本文将从损失函数几何角度来处理多任务优化

2. 介绍

现代多语言方法，如多语言语言模型（Devlin 等人，2018 年；Lample & Conneau，2019 年；Conneau 等人，2019 年）和多语言神经机器翻译（NMT）（Firat 等人，2016 年；Johnson 等人，2017 年；Aharoni 等人，2019 年；Arivazhagan 等人，2019 年），已经显示出在单个大型模型中同时处理数十种或数百种语言的成功。这些模型之所以吸引人有两个原因：（1）效率：训练和部署一个多语言模型所需的资源远远少于为每种语言维护一个模型；（2）积极的跨语言迁移：通过迁移高资源语言（HRL）的知识，多语言模型能够在各种任务中提高低资源语言（LRL）的性能（Pires et al, 2019; Wu & Dredze, 2019; Siddhant et al, 2020; Hu et al, 2020）。

HRL通常拥有丰富的语料、数据集和技术支持，使得在自然语言处理等领域的应用更为成熟；

LRL则面临资源匮乏的问题，这限制了其研究和应用的发展

通过多种语言联合训练，从而将HRL的语言知识迁移到LRL语言中，提高LRL语言模型的训练

尽管多语言模型很有效，但如何正确分析或改进多语言模型的优化程序仍未得到充分探讨。特别是，多语言模型在本质上属于多任务学习（MTL）（Ruder，2017 年），但现有文献往往以单一的方式（单任务方式）对其进行训练，天真地在多种语言的串联语料库上使用单一的语言目标去训练。这种方法忽略了任务的相关性，可能会引起负面干扰（Wang 等人，2020b），但其优化过程仍然是一个黑盒子，掩盖了训练过程中不同语言之间的互动以及跨语言的转移。

优化的过程是一个黑盒模型。我们并不知道每一步的优化是如何进行的，这一篇论文将从梯度角度向我们阐释优化的过程。企图通过形象化、几何化优化过程，从而从优化角度提高模型训练的实际效果

在这项工作中，我们试图通过对损失几何的分析来打开多语言优化的黑箱。具体来说，我们旨在回答以下问题：(1) 在多语言模型的优化过程中，类型相似的语言是否享有更相似的损失几何？(2) 如果是这样，在联合训练过程中，更相似的梯度轨迹是否意味着任务之间的干扰更少，从而导致更好的模型质量？（3）最后，我们能否有意识地鼓励更多几何排列的参数更新，以改善多任务优化，特别是在包含大量噪声和不平衡训练数据的真实世界大规模多语言模型中？

1、类型相似语言，在优化梯度方向上是相似的。优化上彼此帮助，使得模型质量更高

2、不同优化方向的模型同时训练，是否能因为添加了噪声从而提高模型质量

为此，我们对大规模多语言神经机器翻译任务进行了全面研究，其中每个语言对都被视为单独的任务。我们首先研究了语言和损失几何相似性之间的相关性，其特征是沿着优化轨迹的梯度相似性。我们研究了它们在整个训练过程中是如何演变的，并深入了解了它们与跨语言迁移和联合性能之间的关联。特别是，我们的实验发现，不同任务间的梯度相似性与语言亲缘性和模型性能密切相关，因此我们观察到，在类型上接近的语言共享相似的梯度，这将进一步导致良好的多语言结构对齐（Wu 等人，2019 年）和成功的跨语言迁移。基于这些发现，我们发现了一种流行的多任务学习方法（Yu 等人，2020 年）在多语言模型中应用的主要局限性，并提出了一种先发制人的方法--梯度疫苗（Gradient Vaccine），该方法利用任务相关性来设定梯度相似性目标，并自适应地调整任务梯度以实现这些目标。根据经验，在大规模多语言 NMT 模型和多语言语言模型上，我们的方法比标准的整体优化策略和流行的多任务基线获得了显著的性能提升。据我们所知，这是第一项系统研究和改进多语言模型损失几何的工作。

1、优化任务梯度的相似性和语言之间的亲缘性有直接的关系语言亲缘性：是指不同语言之间的相似性和关联性，通常基于它们的共同祖先或相似的结构特征。语言亲缘性可以通过词汇、语法和发音等方面来判断，通常将语言划分为语言家族，例如印欧语系、汉藏语系等。亲缘性强的语言往往共享许多特征，反映出它们的历史发展和相互影响。

2、多语言结构对齐：是指在不同语言之间建立一种一致的结构，使得它们的语法、语义和表达方式能够相互对应和映射。这种对齐帮助自然语言处理模型在处理多种语言时，能够共享和借用信息，从而提升翻译、信息提取等任务的效果。通过识别语言间的相似性，模型可以更好地理解和生成不同语言的内容。

3、不同语言之间建立一种一致的结构就像是找到巴别塔语言一样~~

3. 研究大规模多语言模型中的多任务优化

虽然之前的工作已经研究了数据（Arivazhagan等人，2019年；Wang等人，2020年a）、架构（Blackwood等人，2018年；Sachan和Neubig，2018年；Vazquez等人，2019年；Escolano等人，2020年）和规模（Huang等人，2019年b；Lepikhin等人，2020年）对多语言模型的影响，但对它们的优化动态还不甚了解。现有研究假设，梯度冲突（定义为梯度间的负余弦相似性）会对多任务学习造成不利影响（Yu 等，2020），并导致负迁移（Wang 等，2019），因此我们在此对大规模多语言 NMT 模型进行了一系列控制实验，以研究梯度在多语言环境中如何相互作用，以及它们对模型性能的影响。

3.1 实验装置

对于多语言机器翻译模型的训练，我们主要采用 Arivazhagan 等人（2019 年）的设置。具体而言，我们在一个单一的序列-序列（seq2seq）模型中联合训练多个翻译语言对（Sutskever et al, 2014）。我们使用 Transformer-Big（Vaswani et al，2017）架构，该架构包含（Chen et al，2018a）中描述的 3.75 亿个参数，其中所有参数都是跨语言对共享的。我们使用 500k 词组的有效批量大小，并利用数据并行性在 64 个 TPUv3 芯片上训练所有模型。句子使用共享的源-目标句子片段模型（Kudo & Richardson，2018 年）进行编码，包含 64k 个令牌，并在源句前添加 <2xx> 令牌以指示目标语言（Johnson et al，2017 年）。完整的训练细节见附录 B。

为了研究真实世界中的大规模多任务优化，我们使用了一个内部训练语料库1 （Arivazhagan et al, 2019），该语料库是通过从网络（Uszkoreit et al, 2010）中抓取和提取平行句子生成的，其中包含 102 种语言与英语之间超过 250 亿个句子对。我们从 10 个不同语系和 4 个不同数据大小级别（详见附录 A）中选择了 25 种语言（50 个语言对以英语为中枢），包含超过 80 亿个句子对。然后，我们在两个方向上分别训练两个模型，即 Any！En 和 En！Any。此外，为了最大限度地减少句子语义不一致的干扰因素，我们还对句子进行了语义分析。

单一的序列-序列（seq2seq）模型：是指只使用一个编码器和一个解码器的基本架构，用于将一个输入序列直接转换为一个输出序列。在这种模型中，编码器接收输入序列并生成一个上下文向量，而解码器则根据该上下文向量生成输出序列。该模型的优点在于结构简单，易于实现，适用于如机器翻译、文本摘要等任务。通过训练，模型可以学习输入和输出序列之间的映射关系。

模型首先通过训练学习英语的语法和语义，然后利用语言对句子来学习英语与其他语言之间的对应关系。这种过程使模型能够掌握不同语言之间的转化规则，从而提高翻译的准确性和流畅性。通过不断接触不同语言对，模型能够更好地理解各语言之间的联系和差异。

3.2 结果观察

我们提出以下三点主要看法。我们的研究结果在不同的模型架构和设置下是一致的（更多结果和补充讨论见附录 C 和 D）。

利用梯度相似度来衡量损失几何。在图 1 中，我们使用对称热图来直观显示不同训练步骤中所有检查点的平均梯度相似性。具体来说，我们观察到语言家族中成员关系密切的语言沿着梯度相似性矩阵的对角线形成了强大的聚类。此外，所有欧洲语言在左上角形成了一个大的聚类，在其内部还有一个更小的细粒度斯拉夫语言聚类。此外，我们还观察到西欧语言的相似性在西斯拉夫语系、南斯拉夫语系、东斯拉夫语系中逐渐降低，这说明了语言接近性的渐进连续性。
梯度相似性与模型质量呈正相关。由于梯度相似性与任务接近性有很好的相关性，我们自然会问梯度相似性越高，多任务性能是否越好。在图 2(a)中，我们从 En!Any 和 Any!En 两个方向训练了所有语言对的联合模型，并比较了两者之间的梯度相似性。虽然之前的研究表明，En！Any 更难，也更不适合正迁移（Arivazhagan et al, 2019），但我们发现，En！Any 的任务梯度确实不如 Any！En 的任务梯度相似。另一方面，虽然更大的批次通常能提高模型质量，但我们观察到，用更小的批次训练出来的模型的损失几何形状不太相似（附录 D）。这些都表明梯度干扰对学习过程提出了巨大挑战。为了进一步验证这一点，我们将 En！Fr 与不同的语言对（如 En！Es 或 En！Hi）配对，并用恰好两个语言对训练一组模型5 。然后，我们在 En！Fr 测试集上评估它们的性能，并将它们的 BLEU 分数与配对的两个任务之间的梯度相似性进行比较。如图 2(b)所示，梯度相似度与模型性能呈正相关，再次证明了不同梯度会带来干扰并影响模型质量。
梯度相似性在不同层和不同训练步骤中的演变。前面讨论的重点是整个模型在所有检查点上的梯度相似性平均值，现在我们研究它在不同层和不同训练步骤上的梯度相似性。图 4(c) 显示了梯度相似性在不同层和不同训练步骤中的演变。在整个训练过程中都存在相似性。有趣的是，我们观察到不同梯度子集的不同模式。例如，在解码器的第 1 层，En！Fr 和 En！Hi 之间的梯度相似性逐渐变小（从正到负），但在同一层的编码器中，相似性却逐渐变大（从负到正）。另一方面，在同一层中，En！Fr 和 En！Es 之间的梯度相似性总是高于 En！Fr 和 En！Hi 之间的梯度相似性。

图 2：梯度相似性与模型性能的比较。(a): 单一 Any!Any 模型中 xx-en （左）和 en-xx （右）语言对之间的模型梯度相似性。(b): 一组三语模型在 en-fr 上的 BLEU 分数与梯度相似度对比。每个模型都在 en-fr 和另一个 en-xx 语言对上进行了训练。

此外，我们在图 4(a) 中评估了多语言编码器和解码器中梯度相似性的差异。我们发现，在解码器中，Any！En 方向的梯度相似性更高（正值），而 En！Any 方向的梯度相似性较低（负值）。这符合我们的直觉，即当解码器只需要处理一种语言时，梯度应该更加一致。此外，我们还可以在图 4(b) 中直观地看到梯度相似性是如何跨层演变的。我们注意到，在 Any！En/En！Any 方向上，梯度之间的相似性随着从底层到顶层的移动而增加/减少。这些结果表明，梯度的动态变化是随着模型层和训练时间的变化而变化的。

不同语言在向量空间中的差异还是比较大的。因此当优化目标不同时（En-X），梯度相似度也很不相似（甚至冲突）。实验结果也表明，这种情况下，训练的模型质量确实不高。

Any！En 方向的梯度相似性更高（正值）：
这意味着在“Any到英语”的翻译过程中，模型在处理不同句子时所产生的梯度较为一致，且整体上倾向于朝同一个方向调整参数。这种一致性可能使得模型在此方向上的学习更加高效。
En！Any 方向的梯度相似性较低（负值）：
相较之下，在“英语到Any”的翻译过程中，模型产生的梯度变化较为分散，可能导致学习效果不如前者。这种负值表明在该方向上，模型的参数调整不够一致，可能是由于不同目标语言之间的差异性较大。

我们的分析强调了损失几何在多语言模型中的重要作用。有鉴于此，我们接下来要讨论的问题是如何系统地改进多语言模型中的多任务优化。

1、语言相似度和优化梯度相似性几乎重合。

2、语言相似度也存在渐进连续性，不存在突变、跳变的可能

3、优化梯度方向确实会模型效果存在影响——以X-En和En-X对比得到

4. 建议方法

根据我们的观察，任务间损失几何与语言相似性和模型质量密切相关，接下来要问的一个自然问题是，我们如何利用这种梯度动态，设计出优于标准单一做法的优化程序。由于我们在由数十亿词组成的真实世界数据集上训练大规模模型，而这些数据集中的任务高度不平衡并表现出复杂的交互，因此我们提出了一种有效的方法，它不仅能利用任务间结构，还适用于不平衡的任务和噪声数据。为了激发我们的方法，我们首先回顾了一种最先进的多任务学习方法，并说明第 2 节中的观察结果如何帮助我们发现其局限性。

图 3：训练过程中 PCGrad（左）和 GradVac（右）的活动计数

图 4：评估不同模型结构和训练步骤的梯度相似性。(a): 编码器和解码器梯度相似性的差异。正值（深色）表示编码器的梯度相似性更高。(b): 各层梯度相似性。(c): 不同组件和任务在不同训练步骤中的梯度相似性。

图 5：PCGrad（左）与 GradVac（右）在两种情况下的比较。(a): 对于负相似性，两种方法都有效，但 GradVac 可以在不同任务之间利用自适应目标。(b)：对于正相似性，只有 GradVac 有效，而 PCGrad 则处于 “闲置 ”状态。

4.1 梯度手术

现有研究（Chen 等，2018b；Sener & Koltun，2018；Yu 等，2020）已成功利用基于梯度的技术改进了多任务模型。值得注意的是，Yu 等人（2020 年）假设梯度之间的负余弦相似性不利于多任务优化。并提出了一种直接投影冲突梯度（PCGrad）的方法，也称为梯度手术。如图 5(a) 左侧所示，其原理是首先检测梯度冲突，然后在必要时进行 “手术 ”以消除冲突。具体来说，对于特定训练步骤中第 i 个任务的梯度 gi 和第 j 个任务的梯度 gj，PCGrad（1）计算它们的余弦相似度，以确定它们是否冲突；（2）如果是负值，则将 gi 投射到 gj 的法平面上，如图 5（a）所示：

$\mathbf{g}_{i}^{\prime}=\mathbf{g}_{i}-\frac{\mathbf{g}_{i}\cdot\mathbf{g}_{j}}{\|\mathbf{g}_{j}\|^{2}}\mathbf{g}_{j}.\quad(1)$

改变后的梯度 gi’ 将取代原来的 gi，整个过程以随机顺序在所有任务中重复进行。更多细节和理论分析，请读者参阅原著。

现在，我们还可以从另一个角度来解释 PCGrad：请注意，梯度余弦相似度在投影后始终为零，这实际上是设定了一个目标下限。换句话说，PCGrad 的目的是对齐梯度，使其符合一定的梯度相似度水平，并隐含地假设任何两个任务的梯度相似度目标都必须至少为零。然而，正如我们在第 3 节中所展示的，不同的语言近似度会导致不同的梯度相似度。事实上，我们模型中的许多语言对都具有正余弦相似性，因此 PCGrad 的前提条件永远不会得到满足。如图 5(b) 左侧所示，PCGrad 对正梯度相似性无效，因此在图 3 左侧的训练过程中 PCGrad 非常稀疏。基于这一局限性，我们接下来介绍我们提出的方法。

PCGrad的本质：下限保护技术

增加强假设——优化中，优化梯度方向不能相反

优化梯度不能相反的假设真的合理吗？？？

1、信息丢失。强制让一个方向的优化梯度消失，将导致这个方向上模型得不到训练

2、对不同任务的适应性差：不同任务训练时，直接对其中一个任务方向做手术，将导致模型完全无法适应这个方向的任务。最终结果，模型极度远离被做手术的方向。模型对不同任务的适应性差

3、过度独立化。强制任务的独立性可能会导致模型在学习过程中忽略任务之间的潜在协同作用。这种过度独立化可能会使得模型在某些任务上表现不佳，因为某些知识或模式无法在任务之间进行迁移。

4、影响收敛速度：如果任务的梯度被强制设定为正交的，这可能会导致优化过程中的收敛速度变慢。由于模型在每个迭代中都必须分别优化每个任务的梯度，导致更新方向的多样性降低，影响整体的学习效率。

一个例子：学习骑自行车和学习开车：

想象一下，一个人同时在学习骑自行车和学习开车。虽然这两个任务在很多方向看起来是独立的（例如骑自行车要走非机动车道、开车走机动车道这两件事是完全相反的），但它们之间有很多可以共享的技能和知识（实际生活上，你能区分非机动车道，也就自然区分出机动车道）。

过度独立化的影响：

共享技能：
在学习骑自行车时，这个人需要掌握平衡、转向和速度控制的技能。开车时，这些技能（如转向和控制速度）也会用到。
如果这个人把这两个学习过程完全分开，像是分别在两个房间里学习（一个房间学骑自行车，另一个房间学开车），他就可能在骑自行车时忽略了与开车相关的转向技巧，反之亦然。
知识迁移：
例如，在骑自行车时，学会了如何平衡身体，有助于在开车时更好地掌握车辆的重心。如果这两者之间没有联系，这个人可能在学习开车时再次花时间去习惯车辆的平衡，而不利用骑自行车时获得的经验。
也就是说，他可能会在骑自行车上表现得很好，但在开车上却很挣扎，因为他没有将骑自行车的经验转移到开车上。
最终表现：
因此，这个人在骑自行车和开车上可能都需要花更多的时间和精力，因为他在每个任务上都没有从另一个任务中受益。

4.2 梯度疫苗

PCGrad 的局限性来自于一个不必要的假设，即所有任务都必须享有相似的梯度交互，而忽略了任务间的复杂关系。为了放宽这一假设，一个自然的想法是以某种适当的方式设定自适应梯度相似性目标。图 5(b) 右侧显示了一个例子，两个任务的正梯度相似度为（见下面latex公式1）。虽然 PCGrad 会忽略这种非负值情况，但对于更相似的任务（如法语与西班牙语），φij 的当前值可能仍然过低。因此，假设我们的相似性目标是（见下面latex公式2）（例如，这两个任务之间的 “正常 ”余弦相似性），我们可以改变 gi 的大小和方向，使得到的梯度符合这种梯度相似性目标。具体来说，我们将 gi 替换为在 gi 和 gj 所跨向量空间中满足上述条件的向量，即 a1·gi + a2·gj。由于 a1 和 a2 的有效组合有无穷多个，为简单起见，我们固定 a1 = 1，并通过在 gi 和 gj 平面上应用正弦定律，求出 a2 的值，得出第 i 个任务的新梯度为：

$\cos(\theta)=\phi_{ii}.$

$\cos(\theta')=\phi_{ij}^T>\phi_{ij}$

$\mathbf{g}_i'=\mathbf{g}_i+\frac{\|\mathbf{g}_i\|(\phi_{ij}^T\sqrt{1-\phi_{ij}^2}-\phi_{ij}\sqrt{1-(\phi_{ij}^T)^2})}{\|\mathbf{g}_j\|\sqrt{1-(\phi_{ij}^T)^2}}\cdot\mathbf{g}_j\quad（2）$

1、对于图5（b）来说，PCGrad是直接采用gi作为新方向gi‘，这样并没有考虑gj的影响。现在设定一个新目标，则是对于gi来说加强了限制，增加了gj的影响

2、对于图五（a）来说，PCGrad是直接舍弃gi中与gj相冲突的部分，这样完全排除了gi方向的优化有正确知识的可能性。现在设定一个新目标，则是对于gi来说，增加了gi的影响

假设gi是新学习的知识，gj是原本学习过的旧知识。

那么梯度疫苗的本质如下：

1、在新学习知识和旧学习知识冲突时，保留一部分新知识正确的可能性

2、在新学习知识和旧学习知识不冲突时，保留一部分旧知识

一个例子： 1、大学物理知识和高中物理知识冲突，保留大学物理知识正确性的可能 2、大学物理知识和高中物理知识不冲突时，保留并直接借鉴高中物理知识

这样，我们就可以在 [-1; 1] 范围内使用任意梯度相似性目标 φ T ij。剩下的问题是如何正确设定这一目标。在上述分析中，我们已经看到梯度交互在不同任务、层和训练步骤中会发生巨大变化。为了将这三个因素结合起来，我们针对任务 i、j 和参数组 k（例如第 k 层）采用指数移动平均（EMA）变量：

$\hat{\phi}_{ijk}^{(t)}=(1-\beta)\hat{\phi}_{ijk}^{(t-1)}+\beta\phi_{ijk}^{(t)},\quad(3)$

其中，φ (t) ijk 是在训练步骤 t 计算出的梯度相似度，β 是超参数，^φ (0) ijk = 0。完整方法见算法 1（附录 E）。如图 5(a) 和 5(b) 右侧所示，我们的方法在正负两种情况下都能更先发制人地改变梯度，在更新梯度时采取更主动的测量（图 3）。因此，我们将其称为梯度疫苗（GradVac）。

如何设定正确的梯度目标是本算法实现的关键

1、这里给出的解答，是利用一层层迭代的方法更新确定最后的梯度目标

2、让模型在一次次迭代中，利用上一次迭代的梯度相似度结果，去自动的确定下一次梯度变化方向

3、这种方法本质上类似于梯度下降方法

4、与梯度下降方法存在不同的是：梯度下降方法其导数就隐含其确定性的更新方向；这里合适的夹角值并没有一个确定性的更新方向，需要通过一个超参数去调节。超参数大小将直接影响梯度疫苗的效果（GradVac较于PCGrad起作用的程度）

5. 附录中两个重点

5.1 如何根据设定的梯度优化目标优化梯度

5.2 如何动态调整梯度目标

算法如下：

如何理解：

6. 实验

我们将多任务优化方法与多语言环境下的单一方法进行了比较，并检验了我们提出的方法在多语言 NMT 和多语言语言模型上的有效性。

6.1 一般设置

我们选择三种流行的基于梯度的可扩展多任务优化方法作为基础： GradNorm（Chen et al，2018b）、MGDA（Sener & Koltun，2018）和 PCGrad（Yu et al，2020）。为了公平比较，每批样本都计算了特定语言的梯度。除非另有说明，采样温度也固定为 T=5。对于基线方法，我们主要按照其各自论文中解释的默认设置和训练程序来选择 hype 参数。对于我们的方法，为了研究 GradVac 对任务分配的敏感程度，我们还研究了一种变体，允许我们控制 GradVac 考虑哪些语言。具体来说，我们在小规模 WMT 数据集上搜索了以下超参数，并将其转移到大规模数据集上：GradVac 考虑的任务 fHRL only, LRL only, all taskg, 参数粒度 fwhole model, enc dec, all layer, all matrixg, EMA decay rate β f1e-1, 1e-2, 1e-3g。我们发现仅 fLRL、全层、1e-2g 一般效果较好，并在下面的实验中使用了这些参数（更多细节和结果见附录 F）

6.2 结果与分析

WMT 机器翻译。我们首先在一项小型 WMT 任务中对我们的方法和其他基线进行了全面分析。我们考虑了两种高资源语言（WMT14 enfr、WMT19 en-cs）和两种低资源语言（WMT14 en-hi、WMT18 en-tr），并分别训练了两种与英语互译的模型。结果如表 1 所示。

首先，我们注意到，虽然天真多语基线在低资源语言上的表现优于双语模型，但由于负面干扰（Wang et al, 2020b）和容量限制（Arivazhagan et al, 2019），它在高资源语言上的表现较差。

由于这些方法的改进微乎其微，甚至没有改进（第 3、4 和 5 行），因此我们无法正确解决这一问题。特别是，我们仔细观察了利用梯度信号对任务重新赋权的方法（即 GradNorm 和 MGDA）的优化过程，发现它们计算出的权重意义不大，而且有噪声。例如，MGDA 为 en-xx 模型中的 en-fr 分配了更大的权重，导致在其他语言上的表现更差。这主要是因为这些方法是在所有任务都有均衡数据的假设下设计的。我们的结果表明，不考虑损失几何而简单地重新分配任务权重的效果有限。

相比之下，我们的方法明显优于所有基线方法。与天真的联合训练方法相比，我们提出的方法不仅提高了平均 BLEU 分数，还提高了所有任务的单项性能。我们注意到，与 Any!En 相比，En!Any 的性能增益更大。这与我们之前的观察结果一致，即在 En!Any 方向上，梯度的相似性更低，冲突性更大。

接下来，我们进行了广泛的消融研究，以进行更深入的分析：（1）应用于所有层的 GradVac 与整个模型的对比（第 8 行与第 9 行）：所有层的变体优于整个模型，这表明设置细粒度参数目标非常重要。(2) 恒定目标与 EMA 的对比（第 7 行与第 9 行）：我们还考察了针对所有任务使用恒定梯度目标优化的 GradVac 变体（例如φ T ij = 0:5; 8i; j），发现与使用 EMA 变量相比，性能有所下降。这凸显了通过任务相关性设定任务感知目标的重要性。(3) GradVac 与 PCGrad 的对比（第 8-9 行与第 5-6 行）：两个 GradVac 变体的性能优于 PCGrad 变体，验证了设置抢先梯度相似性目标的有效性。

大规模多语言机器翻译。然后，我们扩大实验规模，将在 WMT 上发现的最佳设置移植到第 2 节中使用的同一海量数据集上。图 6 显示了模型的可视化性能，表 2 显示了平均 BLEU 分数。此外，我们还与采用统一语言对采样策略（T=1）训练的模型进行了比较，发现我们的方法优于这两种多语言模型。最值得注意的是，虽然统一采样对高资源语言对比低资源语言对更有利，但在所有任务中，GradVac 都能持续提高这两种语言对的性能。我们观察到高资源语言的性能提升更大，这说明解决梯度冲突可以减轻对这些头部语言对的负面干扰。另一方面，与双语基线相比，我们的模型在资源丰富的语言上仍然表现较差，这很可能是受限于模型容量。XTREME 基准。我们还将我们的方法应用于多语言语言模型，并在 XTREME 基准（Hu 等人，2020 年）上进行评估。我们选择了所有语言都有训练数据的任务，并对预训练的多语言 BERT 模型（mBERT） (Devlin等人，2018 年）对这些语言进行了联合微调（实验细节和其他结果见附录 G）。如表 3 所示，我们的方法始终优于天真联合微调和其他多任务基线。这证明了我们的方法在一般多语言任务中的实用性

7. 相关工作

多语言模型联合训练多种语言（Firat et al, 2016; Devlin et al, 2018; Lample & Conneau, 2019; Conneau et al, 2019; Johnson et al, 2017; Aharoni et al, 2019; Arivazhagan et al, 2019）。后续工作研究了这些模型的跨语言能力及其贡献（Pires et al, 2019; Wu & Dredze, 2019; Wu et al, 2019; Artetxe et al, 2019; Kudugunta et al, 2019; Karthikeyan et al, 2020）、这种训练范式的局限性（Arivazhagan et al, 2019； Wang 等人，2020b），以及如何通过事后对齐（Wang 等人，2020c；Cao 等人，2020）、数据平衡（Jean 等人，2019；Wang 等人，2020a）或校准训练信号（Mulcaire 等人，2019；Huang 等人，2019a）来进一步改进。与这些研究不同的是，我们利用损失几何直接研究了跨训练进度的语言交互，并提出了一种语言感知方法来改进优化程序。另一方面，多语言模型可被视为多任务学习方法（Ruder，2017；Zamir et al，2018）。之前的工作研究了多任务训练的优化难题（Hessel et al, 2019; Schaul et al, 2019），还有人建议通过学习任务相关性（Zhang & Yeung, 2012）、路由任务特定路径（Rusu et al, 2016; Rosenbaum et al, 2019）、直接改变梯度（Kendall et al, 2018; Chen et al, 2018a; Du et al, 2018; Yu et al, 2020）或搜索帕累托解决方案（Sener & Yeung, 2012）来提高训练质量。

8. 结论

在本文中，我们从梯度相似性的角度系统地研究了多语言建模的损失几何，并根据研究结果提出了一种名为 GradVac 的新方法来进行改进。利用多语言任务的语言邻近性结构，我们验证了以下假设，即更相似的损失几何会改善多任务优化，而梯度冲突则会损害模型性能，并证明了与任务邻近性保持一致的更多几何一致性更新的有效性。我们分析了所提方法在大规模多语言任务中的表现，结果表明该方法性能优越，我们相信我们的方法具有通用性，可用于多语言环境之外的其他地方。