摘要:低秩适配(LoRA)是针对预训练语言模型进行任务特定参数高效微调(PEFT)的最流行方法之一,因其良好的性能和计算效率而受到广泛应用。LoRA通过在每个冻结的预训练模型模块上方注入两个可训练的低秩分解矩阵的乘积来实现。然而,在隐私保护的联邦学习(FL)环境中应用LoRA时,可能会由于以下原因变得不稳定:(1)数据异质性和多步本地更新的影响不容忽视;(2)为保证差分隐私(DP)而在更新梯度上添加的噪声可能会被放大;(3)最终性能对超参数非常敏感。导致这些现象的一个关键因素是本地客户端联合优化两个低秩矩阵与中央服务器分别聚合它们之间存在不一致性。因此,本文提出了一种高效且有效的LoRA版本,即联邦冻结A型LoRA(FFA-LoRA),以缓解这些挑战,并进一步将联邦微调大型语言模型(LLMs)的通信成本减半。FFA-LoRA的核心思想是固定随机初始化的非零矩阵,仅对零初始化矩阵进行微调。与LoRA相比,FFA-LoRA在隐私保护的FL中具有实际和理论上的优势。我们的实验表明,在各种FL任务中,FFA-LoRA在性能上比原始LoRA更具一致性,并且具有更好的计算效率。
1 引言
近年来,大型语言模型(LLMs)取得了巨大的成功(Touvron 等人,2023;OpenAI,2023;Zhang 等人,2022a;Zeng 等人,2022)。LLMs的应用范围从用于不同写作任务的多功能聊天机器人(OpenAI)到多模态系统(Driess 等人,2023;Wu 等人,2023;Bommasani 等人,2021)。除了基于通用LLMs的商业化产品外,人们还可以利用特定任务的数据对预训练的LLMs进行微调,从而构建定制化的LLMs(Howard & Ruder,2018)。由于现代LLMs通常包含数十亿参数,对所有参数进行微调的计算成本过高。为此,研究者开发了参数高效微调(PEFT)方法(Ding 等人,2023),例如低秩适配(LoRA)(Hu 等人,2021),这些方法在许多下游任务中被广泛采用。PEFT方法冻结了预训练LLMs中的大部分参数,并仅更新一小部分参数。与全模型微调相比,这些方法通常能够提供相当甚至更好的性能,同时显著提高计算效率。
在本文中,我们关注LoRA,因为它在许多任务中表现出色且具有广泛的适用性。然而,LoRA仍然需要足够的训练数据才能在原始模型的基础上取得显著的改进。数据有限的各方可以联合起来,采用联邦学习(FL)(Li 等人,2020)作为计算框架来协作微调模型。由于LoRA的参数高效性,其在FL中受到欢迎,因为它的通信成本低且本地计算负担相对较小。此外,如果FL中的数据方(通常称为客户端)希望在FL中防止本地数据从共享信息中泄露,可以进一步采用差分隐私(DP)(Dwork 等人,2006)技术来提供隐私保障。
尽管在中心化设置中已经有许多研究探索了(隐私保护的)PEFT,但在FL设置中如何进行(隐私保护的)LoRA的研究仍然处于起步阶段。直接将LoRA方法从中心化设置迁移到FL并将其与FedAvg结合可能无法达到最佳性能,因为在(隐私保护的)FL设置中,如噪声梯度和跨数据孤岛设置中数据的非独立同分布(non-iid)等因素在优化过程中可能发挥重要作用。在现实世界中具有隐私问题的LLMs应用中,例如联合微调(Babakniya 等人,2023)或在差分隐私保证下进行微调(Li 等人,2022),LoRA的性能往往会下降。
贡献。在本文中,我们识别了在隐私保护的联邦学习(FL)设置中应用LoRA时的三个不一致性。首先,LoRA的两组低秩矩阵在本地联合更新和全局分别聚合时会引入不匹配项。其次,如果采用差分隐私随机梯度下降(DP-SGD)作为训练的差分隐私优化器,注入的噪声可能会被LoRA的局部“半二次”特性放大。最后,LoRA的一个超参数——缩放因子α,无论是否强制执行DP,都会显著影响最终模型的收敛性和性能。
为了解决这些不一致性,我们提出了一个名为联邦冻结A型LoRA(FFA-LoRA)的解决方案。FFA-LoRA冻结了非零初始化的低秩矩阵,仅对零初始化的矩阵进行更新和聚合,参数数量仅为LoRA的一半。除了FFA-LoRA在通信和计算成本上节省一半的明显效果外,我们还提供了关于它如何缓解上述三个不一致性的直觉。我们进行了广泛的实验,以验证FFA-LoRA在隐私保护的FL中相对于LoRA的优势,这些实验涵盖了不同的任务、超参数和隐私保护水平。
我们总结我们的贡献如下:
-
我们探索了隐私保护FL中与LoRA不一致的条件,并解释了这种性能下降的潜在原因。
-
我们提出了一种新方法,FFA-LoRA,它针对隐私保护FL中不可避免的不理想条件对LoRA进行了改进。
-
我们通过广泛的实验验证了FFA-LoRA能够始终优于LoRA。
-
2 背景与相关工作
随着大型语言模型(LLMs)网络规模的不断扩大,直接对其进行微调的成本变得难以承受。为了解决这一问题,参数高效微调(PEFT)方法应运而生。这些方法通过引入少量额外的可训练参数Θ来提升模型性能,同时保持大部分预训练参数Φ不变。任务特定的增量∆Φ被编码到维度更小的∆Θ中。Houlsby等人(2019)提出为网络的每一层添加额外的可训练神经模块,称为适配器。另一种方法是通过在输入或隐藏层中添加额外的可训练维度来修改网络,例如前缀微调(prefix-tuning)(Li & Liang,2021)和提示微调(prompt-tuning)(Lester等人,2021)。还有一系列工作(Hu等人,2021;Yu等人,2021b)提出了LoRA和RGP,使用低秩矩阵来近似或重新参数化预训练权重矩阵。LoRA无疑是PEFT方法中最受欢迎的方法之一,它只需要调整全微调方法中不到1%的参数,但在广泛的下游任务中能够实现相当的性能。此外,还有研究(He等人,2021;Chavan等人,2023)试图提供一种统一这些PEFT方法的通用方法。联邦微调LLMs
尽管经过微调的LLMs可以成为不同领域应用的骨干,但微调过程仍然需要大规模的领域特定数据。然而,这些领域特定的数据通常由多个数据持有方拥有,每个数据持有方的数据量都不足以单独微调模型。此外,这些数据持有方通常被禁止直接与其他实体共享此类数据。联邦学习(Kairouz等人,2021)是解决这一困境的常见方案,它允许一组代理通过共享本地模型更新来高效地微调LLMs,而无需显式共享各自的数据。Tian等人(2022)提出了FedBERT,并在BERT模型上进行了联邦预训练。与传统机器学习模型不同,LLMs的巨大模型规模会消耗大量的通信资源,并且需要大量的计算资源来进行本地训练。许多研究解决方案依赖于PEFT与FL的结合。近年来,已有研究探讨了在联邦设置中的PEFT(Zhang等人,2022b)。最近,Kuang等人(2023)提出了FS-LLM,这是一个用于联邦微调LLMs的联邦框架。有研究指出,FL中的数据异质性是PEFT算法面临的挑战(Kairouz等人,2021;Babakniya等人,2023)。PEFT与差分隐私
尽管LLMs凭借其强大的性能和从大量参数中提取丰富特征的能力而成为强大的工具,但众所周知,参数众多的LLMs可能会泄露训练数据集中包含的关键信息(Carlini等人,2021;Huang等人,2022)。一种可以提供理论保证防止训练数据从模型中泄露的流行隐私概念是差分隐私(DP)(Dwork等人,2006)。定义1((ϵ, δ)-差分隐私):如果对于任意两个相邻数据集D和D′(它们仅在一个记录上有所不同),以及对于随机化算法A的所有可能输出的子集S ⊂ O,满足以下条件,则称随机化算法A是(ϵ, δ)-差分隐私的:Pr[A(D) ∈ S] ≤ e^ϵPr[A(D′) ∈ S] + δ。
直观上,DP确保单个记录不会显著影响输出的分布。通过这种无法区分的输出分布,任何对手只能获得有限的关于特定记录是否在输入数据中的额外知识。隐私保护水平由隐私参数(ϵ, δ)表示,(ϵ, δ)的选择越小,意味着更强的隐私保护保证。
机器学习中的DP:DP-SGD
一种经典的机制用于确保发布的模型满足差分隐私,即DP-SGD(Song等人,2013;Abadi等人,2016;Bassily等人,2014)。与传统的随机梯度下降(SGD)算法相比,DP-SGD在每次迭代中增加了两个额外的操作。它首先使用范数约束C对每个样本的梯度进行裁剪,以限制任何样本的最大影响。然后,在批量B中裁剪梯度的总和上添加高斯噪声z ∼ N(0, C²σ²Ip)。即,更新的梯度为:¯g = (Σ Clip(∇fi, C) + z) / |B|。最后,使用这个带噪声的梯度总和¯g来更新模型。标量σ由隐私组合规则(Abadi等人,2016)决定,给定隐私参数ϵ、δ、总迭代次数T和采样率q = |B|/N(N为训练集中样本的总数)。在中心化设置中,单个训练者拥有所有数据,现有研究主要采用DP-SGD作为优化算法来对LLMs进行隐私保护的微调。Yu等人(2021a)研究了参数高效算法在私有微调中的效果。Li等人(2021a;2022)发现,尽管PEFT显著减少了可训练参数的数量,但私有微调的性能并没有显著提高,这可能与传统观点相反(Bassily等人,2014)。
FL中的不同DP设置
一般来说,根据联邦聚合服务器是否被客户端信任,联邦学习中有两种不同级别的差分隐私保护。第一种设置假设服务器是可信的,模型更新可以毫无隐私顾虑地共享给服务器;这种隐私保证是通过对服务器端全局聚合更新进行随机化来实现的(McMahan等人,2017b)。更强的隐私设置是放弃可信服务器的假设,确保每个客户端共享的更新已经满足差分隐私(Li等人,2021b;Wu等人,2020;Qu等人,2021)。在本文中,我们采用更强的隐私设置,确保从本地客户端到服务器共享的任何信息(即模型参数的更新)都满足DP。根据DP的属性,包括并行组合、顺序组合和对后处理的抵抗性(Dwork等人,2006;Abadi等人,2016;Li等人,2021b),最终模型将自动在全球范围内满足DP。