【论文阅读】基于适配器的多语言神经机器翻译通信高效的联邦学习


Communication Efficient Federated Learning for Multilingual Neural Machine Translation with Adapter

Abstract 摘要

  • 联邦多语言神经机器翻译Fed-MNMT对于那些语言资源有限的机构已经成为了一种有前途的范式

遇到的问题

  • 随着预训练语言模型PLMs规模的不断增加,参数传输的通信成本已成为同步过程中训练速度的瓶颈

提出的解决方案

  • 保持PLMs的冻结状态,仅在客户端之间传输轻量级的适配器模块来解决这一问题。
  • 同时,使用各种聚类策略来对参数进行分组整合,减轻参数冲突带来的负面影响

1. Introduction 引言

1.1 背景

  • Fed-MNMT已成为一种新的训练范式,使大多数机构能够训练多语言神经机器翻译模型
  • 可以在没有隐私问题的情况下利用其他组织的语料库,解决了MNMT模型需要收集大规模多语言语料库的问题

1.2 遇到的问题

  • 将联邦学习引入神经机器翻译时,会造成无法忽视的通信问题
  • 不同客户端拥有的语料库在语言上各不相同,具体表现为语言数据不是独立同分布的,当聚合客户端的参数会导致模型性能下降

1.3 解决方案

  • 引入参数高效微调——适配器。在训练过程中,仅需要更新轻量级的适配器模块,多个随机初始化的模块被插入到骨干模型中,并在新数据上进行微调,训练过程中只有这些模块的参数被更新,显著节省了通信成本。
  • 为了防止不同语言的冲突造成聚合后模型性能下降,本篇文献引入了聚类策略。本篇文献基于语言家族、梯度相似性和随机聚类,分别对拥有不同语言对的所有客户端进行聚类。

2. Methodology 方法

2.1 问题表述

  • 对于一个Fed-MNMT问题,假设客户端集合为 { C i } i = 1 N \{C_i\}^N_{i=1} {Ci}i=1N,其中 N > 1 N>1 N>1
  • 每个客户端 C i C_i Ci仅拥有一个语言对 P i P_i Pi,这个客户端源语言和目标语言分别为 s r c i src_i srci t g t i tgt_i tgti,对应的数据集为 D i = { ( x i j , y i j ) } j = 1 n i D_i=\{(x_{ij},y_{ij})\}^{n_i}_{j=1} Di={(xij,yij)}j=1ni,其中 n i n_i ni D i D_i Di的大小
  • 每一轮训练中, { C i } i = 1 N \{C_i\}^N_{i=1} {Ci}i=1N的优化目标是最小化模型预测值 y ~ i \tilde{y}_i y~i与真实值 y i y_i yi之间的交叉熵损失 L i = − ∑ j = 1 n i ∑ k = 1 l i j log ⁡ p ( y ~ i j k = y i j k ∣ x i j ) \mathcal{L}_i = - \sum_{j=1}^{n_i} \sum_{k=1}^{l_{ij}} \log p\left(\tilde{y}_{ij}^k = y_{ij}^k \mid x_{ij}\right) Li=j=1nik=1lijlogp(y~ijk=yijkxij)
  • 聚合算法:由于FedAvg对于数据异质性的解决能力较差,本文提出了一种新的方法FedMean,即将加权平均数直接改为算术平均数,FedMean的计算公式 Θ t + 1 = 1 N ∑ i = 1 n Θ i t \Theta^{t+1}=\frac{1}{N}\sum^{n}_{i=1}\Theta^{t}_i Θt+1=N1i=1nΘit

2.2 适配器模块

  • 文献将瓶颈适配器引入到预训练多语言模型中
  • 在每个编码器层的自注意力层和前馈网络后添加适配器模块
  • 在每个解码层的交叉注意力层后添加额外的适配器层
  • 在训练过程中,只有适配器和层归一化模块的参数会被更新

2.3 客户端聚类策略

  • 相关研究(Johnson et al., 2017; Firat et al., 2016)表明,不同语言之间的参数共享在MNMT中可以提升模型性能,尤其对于低资源语言。既然参数共享能够提升模型性能,如果通过聚类将不同语言对进行分类,再在同一类别中进行参数共享,这样能够提升模型性能。

低资源语言和高资源语言是指在自然语言处理(NLP)任务中,根据某种语言的可用数据量多少对语言进行的分类。

  • 高资源语言:指的是有大量可用数据资源的语言。比如,英语、西班牙语、汉语等,这些语言有丰富的语料库、预训练模型、大量的标注数据等支持。在这些语言上进行训练和建模的难度相对较小,因为有足够的高质量数据来支持模型的学习。

  • 低资源语言:与高资源语言相对,低资源语言是指可用数据资源非常有限的语言。这些语言可能缺乏足够的语料库,标注数据稀缺,甚至没有经过充分的研究。这使得在这些语言上进行NLP任务变得更加困难。许多非洲语言、原住民语言或是某些小众的方言常常属于低资源语言

  • 将聚类的方法引入Fed-MNMT问题中,并仅在每个聚类内进行参数聚合。
  • 假设多语言模型由解码器和编码器组成,首先进行聚类算法,得到编码器聚类组合 G e = { g i } i = 1 m e G_e=\{g_i\}_{i=1}^{m_e} Ge={gi}i=1me和解码器聚类组合 G d = { g i } i = 1 m d G_d=\{g_i\}_{i=1}^{m_d} Gd={gi}i=1md
  • 聚类算法:下图为聚类算法的流程图
    在这里插入图片描述
2.3.1 语言家族/群组聚类策略

语言家族/群组聚类并不是按照具体的语言名称(如中文、英文、德文)进行分类,而是按照语言所属的“语言家族”或“语言群组”进行聚类。语言家族是指一组具有共同起源的语言,它们共享相似的语法结构、词汇和发音特征。例如:

  • 印欧语系是一个常见的语言家族,其中包括英语、德语、法语、西班牙语等语言。
  • 汉藏语系则包括中文、藏语等语言
  • 编码器的聚类取决于源语言的语言家族/群组,解码器的聚类取决于目标语言的语言家族/群组
2.3.2 梯度聚类策略
  • 使用梯度作为聚类的特征
  • 对于每个语言对,使用预训练的多语言模型获取所有数据样本的平均梯度向量,对这些梯度向量应用聚类算法,将客户端分为不同的组
2.3.3 随机聚类策略
  • 均匀地将客户端分开,并保持和编码器和解码器中的聚类数量和语言家族/群组策略中的相同

2.4 通信成本比较

  • 以mBART-50模型(Tang et al., 2020)为例,这是一种流行的预训练多语言模型,其参数数量约为610.9M,需要约2.44GB的存储空间(FP32格式)。相比之下,添加适配器模块后,只有约8M的参数需要传输,从而节省了大约98.7%的通信成本。

3. Experiment Setup 实验设置

3.1 数据集和评估指标

  • 在两种不同的设置下进行实验:
    • 多语言到英语:m2en,使用TED2020语料库
    • 多语言到多语言:m2m,使用Europarl语料库
  • 对于每一个语言对,按照6:2:2的比例将数据集分为训练集,验证集和测试集
3.1.1 m2en设置
  • 对于语言家族/群组聚类策略和随机洗牌聚类策略:
    • 因为目标语言都是英语,所以聚类策略仅应用于编码器,所有客户端共享解码器参数
  • 对于梯度聚类策略:
    • 将解码器的参数聚类为不同的组,数量与编码器中组的数量相同
3.1.2 m2m设置
  • 聚类同时在编码器和解码器上进行
  • 在编码器和解码器上的组数相同
3.1.3 评估指标
  • 选择BLEU分数作为评估指标
  • 报告了每个语言对的宏平均和微平均分数

3.2 基线方法

  • 集中式模型:集中式的训练结果,将所有客户端数据聚集在一起,使用原始、不添加模块的多语言模型进行训练
  • 集中式适配器:使用带有适配器的多语言模型进行集中式训练
  • 适配器本地:为每个客户端使用本地数据训练模型,不进行参数的聚合
  • 模型联邦:在联邦学习的框架下训练原始的多语言模型,不适用适配器模块,所有客户端共享参数,使用FedMean聚合算法,但不使用聚类策略
  • 适配器联邦:适配器添加在骨干模型上,其他设置与模型联邦相同。

3.3 训练设置

  • 选择mBART-50预训练模型作为我们的骨干模型。为了公平地比较不同方法的训练和通信成本,我们为每个模型训练5轮。我们选择验证集上损失最低的检查点,并在测试集上进行评估。每当所有客户端完成一个本地训练周期时,参数会进行一次聚合。对于每个客户端,批量大小为8,每16步更新一次本地模型。对于mBART模型,本地学习率为5 × 10⁻⁵,而对于带有适配器模块的模型,学习率为1 × 10⁻³。适配器模块的隐藏层大小为64。

4. 实验结果

在这里插入图片描述

读懂表格

表格结构
  • Method:列出了各种基线方法,例如集中式模型、带有适配器的集中式模型等
  • Comm. Cost:通信成本
  • 各语言对的得分:表格列出了8个语言对在BLEU上的得分,得分越高表示翻译的质量越好
  • Macro Avg. / Micro Avg.:宏平均和微平均分数,用来衡量所有语言对的翻译质量
表格分析
  • 集中训练方法:centralized-model和centralized-adapter是在集中式学习中训练的模型,
    • 这些方法不涉及联邦学习,所以通信成本为N/A
  • 联邦学习方法:model-fed, adapter-fed, adapter-聚类策略
    • model-fed: 是使用联邦学习框架训练的多语言模型,通信成本高达611MB
    • adapter-fed & adapter-聚类策略:是使用了带有适配器的联邦学习框架训练的多语言模型,通信成本仅有8MB
    • 可以看到adapter-families在Macro Avg. / Micro Avg上的分数为所有实验组中最高,表现最好

4.1 主要结果和发现

  • 使用聚类的方法都比直接的adapter-fed基线方法分数要高,表现更好,说明聚类策略有能力缓解数据差异问题
  • 在这两种设置中,adapter-families在Macro Avg. / Micro Avg上的分数为所有实验组中最高,表现最好
  • 在设置二m2m中,聚类策略方法的表现不如adapter-local,因为在m2m中,需要设计更加精细的聚类策略,来解决数据冲突的问题

4.2 消融研究

  • 单独对解码器和编码器进行聚类都提升了性能。

5. 进一步研究

5.1 案例研究

5.2 FedMean 和聚类策略的共同作用Both FedMean and Clustering Contribute

在这里插入图片描述

  • 在本次实验中,数据差异来自两个方面:数据量的差异和语言差异
  • 文献将聚合方法从FedAvg换为FedMean以解决数据量的差异
  • 通过聚类策略以解决语言差异
  • 结合表格,可以得出聚合方法和聚类策略都对
阅读表格
  • 聚类策略
    • 聚类策略在Europarl语料库上的性能提升要优于TED2020语料库上的性能提升
  • 聚合方法的改变
    • 在TED2020语料库中,FedMean对于性能的提升是显著的
    • 然而在Europarl语料库中,FedMean对于性能的提升不那么显著。甚至对于一些使用聚类策略的基线方法的性能造成了下降

5.3 通过适配器剪枝进一步节省成本

  • 选择mBART-50模型,该模型分别在编码器和解码器中具有12层
  • 将mBART中添加的所有适配器模块均匀分为三部分:输入端适配器(编码器或解码器的前4层中的适配器模块)、中间层适配器(编码器或解码器的第5到8层中的适配器模块)、输出端适配器(编码器或解码器的最后4层中的适配器模块)
  • 在每种策略中,仅保留适配器模块的一部分,因此通信成本减少了三分之二。

6. 相关工作

  • 联邦学习(Federated Learning,FL)最早由McMahan等人(2017)提出,作为一种去中心化的训练框架。由于其去中心化和隐私保护的特性,FL在实际应用中展现了巨大的潜力。最近,自然语言处理(NLP)社区掀起了一股探索联邦学习在各种NLP任务中的应用浪潮,例如表情符号预测(Gandhi等,2022)、命名实体识别(Ge等,2020)和机器翻译(Roosta等,2021;Passban等,2022;Weller等,2022)等。Roosta等(2021)首次将FL应用于神经机器翻译(NMT)任务。然而,在FL环境下训练语言模型会带来巨大的通信开销。为了解决这个问题,研究人员提出了只在服务器和客户端之间交换一些特定的“控制层”(Roosta等,2021)。此外,Passban等(2022)引入了参数剪枝策略以减少通信带宽。相比于“控制层”,我们的方法通过适配器模块在通信效率上具有优势,传输的参数量更少。此外,其他参数剪枝策略也可以应用于我们的适配器模块,以进一步降低通信成本。
  • 多语言神经机器翻译(MNMT)训练一个模型来处理多个语言对之间的翻译(Johnson等,2017;Aharoni等,2019;Zhang等,2020)。此外,MNMT通过消除为每个语言对单独训练模型的需求,显著降低了训练和推理成本。大规模预训练的多语言模型已被用于MNMT,例如mBART-50(Tang等,2020)和M2M100(Fan等,2021)。近年来,适配器在MNMT中变得越来越受欢迎(Bapna和Firat,2019;Cooper Stickland等,2021;Philip等,2020;Üstün等,2021;Chronopoulou等,2022),因为它具有高参数效率和任务之间的可转移性

7. 结论

  • 为联邦学习引入了适配器模块,提升了通信效率
  • 为了解决引入适配器模块导致的性能下降问题,文献提出了不同的聚类策略来解决数据差异带来的负面影响
  • 服务器中的聚合算法和聚类策略都会影响模型的性能

限制

  • 本研究假设编码器和解码器中的聚类仅与源语言和目标语言相关。然而,实际上,编码器和解码器中的参数同时受到源语言和目标语言的影响。因此,这一假设可能会导致性能下降。
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值