【论文阅读】基于适配器的多语言神经机器翻译通信高效的联邦学习


Communication Efficient Federated Learning for Multilingual Neural Machine Translation with Adapter

Abstract 摘要

  • 联邦多语言神经机器翻译Fed-MNMT对于那些语言资源有限的机构已经成为了一种有前途的范式

遇到的问题

  • 随着预训练语言模型PLMs规模的不断增加,参数传输的通信成本已成为同步过程中训练速度的瓶颈

提出的解决方案

  • 保持PLMs的冻结状态,仅在客户端之间传输轻量级的适配器模块来解决这一问题。
  • 同时,使用各种聚类策略来对参数进行分组整合,减轻参数冲突带来的负面影响

1. Introduction 引言

1.1 背景

  • Fed-MNMT已成为一种新的训练范式,使大多数机构能够训练多语言神经机器翻译模型
  • 可以在没有隐私问题的情况下利用其他组织的语料库,解决了MNMT模型需要收集大规模多语言语料库的问题

1.2 遇到的问题

  • 将联邦学习引入神经机器翻译时,会造成无法忽视的通信问题
  • 不同客户端拥有的语料库在语言上各不相同,具体表现为语言数据不是独立同分布的,当聚合客户端的参数会导致模型性能下降

1.3 解决方案

  • 引入参数高效微调——适配器。在训练过程中,仅需要更新轻量级的适配器模块,多个随机初始化的模块被插入到骨干模型中,并在新数据上进行微调,训练过程中只有这些模块的参数被更新,显著节省了通信成本。
  • 为了防止不同语言的冲突造成聚合后模型性能下降,本篇文献引入了聚类策略。本篇文献基于语言家族、梯度相似性和随机聚类,分别对拥有不同语言对的所有客户端进行聚类。

2. Methodology 方法

2.1 问题表述

  • 对于一个Fed-MNMT问题,假设客户端集合为 { C i } i = 1 N \{C_i\}^N_{i=1} { Ci}i=1N,其中 N > 1 N>1 N>1
  • 每个客户端 C i C_i Ci仅拥有一个语言对 P i P_i Pi,这个客户端源语言和目标语言分别为 s r c i src_i srci t g t i tgt_i tgti,对应的数据集为 D i = { ( x i j , y i j ) } j = 1 n i D_i=\{(x_{ij},y_{ij})\}^{n_i}_{j=1} Di=
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值