目录
Communication Efficient Federated Learning for Multilingual Neural Machine Translation with Adapter
Abstract 摘要
- 联邦多语言神经机器翻译Fed-MNMT对于那些语言资源有限的机构已经成为了一种有前途的范式
遇到的问题
- 随着预训练语言模型PLMs规模的不断增加,参数传输的通信成本已成为同步过程中训练速度的瓶颈
提出的解决方案
- 保持PLMs的冻结状态,仅在客户端之间传输轻量级的适配器模块来解决这一问题。
- 同时,使用各种聚类策略来对参数进行分组整合,减轻参数冲突带来的负面影响
1. Introduction 引言
1.1 背景
- Fed-MNMT已成为一种新的训练范式,使大多数机构能够训练多语言神经机器翻译模型
- 可以在没有隐私问题的情况下利用其他组织的语料库,解决了MNMT模型需要收集大规模多语言语料库的问题
1.2 遇到的问题
- 将联邦学习引入神经机器翻译时,会造成无法忽视的通信问题
- 不同客户端拥有的语料库在语言上各不相同,具体表现为语言数据不是独立同分布的,当聚合客户端的参数会导致模型性能下降
1.3 解决方案
- 引入参数高效微调——适配器。在训练过程中,仅需要更新轻量级的适配器模块,多个随机初始化的模块被插入到骨干模型中,并在新数据上进行微调,训练过程中只有这些模块的参数被更新,显著节省了通信成本。
- 为了防止不同语言的冲突造成聚合后模型性能下降,本篇文献引入了聚类策略。本篇文献基于语言家族、梯度相似性和随机聚类,分别对拥有不同语言对的所有客户端进行聚类。
2. Methodology 方法
2.1 问题表述
- 对于一个Fed-MNMT问题,假设客户端集合为 { C i } i = 1 N \{C_i\}^N_{i=1} { Ci}i=1N,其中 N > 1 N>1 N>1
- 每个客户端 C i C_i Ci仅拥有一个语言对 P i P_i Pi,这个客户端源语言和目标语言分别为 s r c i src_i srci和 t g t i tgt_i tgti,对应的数据集为 D i = { ( x i j , y i j ) } j = 1 n i D_i=\{(x_{ij},y_{ij})\}^{n_i}_{j=1} Di=