自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(131)
  • 资源 (1)
  • 收藏
  • 关注

原创 参数高效微调理论

(PEFT)通过操纵模型参数获得了相当多的关注,)被认为是PEFT中的顶尖技术。尽管在众多领域取得了巨大成功,但关于。最近,又开发了一种名为的新方法,它通过来微调隐藏表示,这些隐藏表示编码了丰富的语义信息,其性能似乎比。在本工作中,我们首先建立了之间的联系,然后将它们统一为一个元算法,称为模型高效微调(MeFT)。MeFT不仅证明了其收敛速度与现有算法中最好的收敛速度一致,而且理论上揭示了低秩与收敛误差之间的关系。

2025-06-02 14:59:56 242

原创 联邦局部自适应修正优化器(FedLADA)

文献[28,29]提供了局部间隔和较大小批量在收敛上的差异。我们在CIFAR-10/100和TinyImagenet数据集上进行了广泛的实验,以验证FedLADA的有效性,该方法在深度网络训练中实现了比本地自适应优化器快约1.2倍的收敛速度,比最佳基于SGD的基线快1.5倍,并且比FedAdam快3倍的收敛速度,同时实现了更高的测试精度。我们提出了一个新颖且通信高效的FedLADA算法,该算法在联邦学习中引入了局部自适应修正技术,以减轻由于异构数据集上的过拟合导致的客户端漂移的负面影响,并保持高收敛速度。

2025-06-02 14:59:47 874

原创 Implicit Regularization of Sharpness-Aware Minimization for Scale-Invariant Problems

能够改善多种深度学习任务的泛化性能。受等流行架构的启发,我们探索了在涉及的尺度不变问题中的。与通常关注的)不同,本工作引入了一个称为)的概念,定义为两个变量平方范数之差。这使我们能够描述SAM更丰富的全局行为。特别是,我们的理论和实证发现表明:i);ii)——离群点的影响更强。后者的发现与实证观察一致,即在存在离群点的情况下。利用这种隐式正则化,我们开发了一种针对尺度不变问题()的资源高效的SAM变体——平衡性感知正则化(balancedness-aware regularization,BAR)。

2025-06-02 14:46:02 996

原创 Locally Adaptive Federated Learning

鉴于之前的研究表明FedAvg需要衰减步长才能在异质性下收敛,我们扩展了我们的方法,提出了一个递减步长版本FedDecSPS(遵循DecSPS的想法),在实践中为一般非插值设置提供了确切收敛,而无需上述小步长假设。我们还在i.i.d.和non-i.i.d.设置中,对于凸和非凸情况,与调整后的FedAvg和FedAMS相比,获得了我们提出的FedSPS和FedDecSPS的具有竞争力的性能(无论是优化还是泛化)。然而,将自适应方法扩展到联邦设置仍然是一个具有挑战性的任务,大多数最近提出的自适应联邦方法,如。

2025-06-01 15:15:25 814

原创 LORA-FA: MEMORY-EFFICIENT LOW-RANK ADAPTA-TION FOR LARGE LANGUAGE MODELS FINE-TUNING

我们在自然语言理解任务上微调RoBERTa(Liu et al., 2019),在机器翻译任务上微调T5(Raffel et al., 2020),以及在MMLU(Hendrycks et al., 2021)基准测试上微调LLaMA(Touvron et al., 2023a)。因为LoRA冻结了W并且只更新较小的矩阵A和B,与全参数微调相比,其可训练参数以及相应的梯度和优化器状态的内存开销可以大幅减少,如图1(a)所示,全参数微调可以被视为更新W并冻结A和B。,不会引入额外的推理延迟。

2025-05-31 12:43:40 567

原创 FFA-LORA 隐私保护LORA

低秩适配(LoRA)是预训练语言模型任务特定参数高效微调(PEFT)方法中最受欢迎的方法之一,因其良好的性能和计算效率而受到青睐。LoRA 在每个冻结的预训练模型模块顶部注入两个可训练的低秩分解矩阵的乘积。然而,在隐私保护联邦学习(FL)的设置中应用时,LoRA 可能会变得不稳定,原因如下:1);2);3)导致这些现象的一个关键因素是本地客户端联合优化。因此,本文提出了一种高效且有效的 LoRA 版本,即,以缓解这些挑战,。FFA-LoRA 的核心思想是在训练过程中固定随机初始化的非零矩阵,。

2025-05-30 22:43:43 728

原创 LoRA-FAIR

基础模型(FMs)通过针对,在,然而对大型模型而言,进行在计算上通常是不可行的。(PEFT)方法,如低秩适应(LoRA),通过引入低秩矩阵来减少需要调整的参数数量,从而降低了这种成本。尽管使得微调更加高效,但它需要大量的数据来进行适应,这使得(FL)成为一个有吸引力的解决方案,因为其具有保护隐私的协作框架。然而,将结合引入了,即服务器端对LoRA矩阵的平均处理与理想的全局更新存在偏差;强调了在各轮次中保持。现有的方法分别解决这些挑战,限制了它们的有效性。

2025-05-30 21:56:57 555

原创 FlexLORA

联邦学习(FL)最近被应用于(LLMs)的。尽管前景广阔,但由于客户端资源和数据分布的异质性,这一应用面临着。本研究介绍了,这是一种简单而有效的,能够缓解传统FL中的,这种效应限制了资源丰富的客户端的潜力,因为它们被与资源最少的参与者的能力捆绑在一起。FlexLoRA允许,促进开发一个具有更广泛、更不特定于任务的知识的全局模型。通过合成来自各个客户端贡献的全尺寸LoRA权重,(SVD),FlexLoRA充分利用了异质客户端资源。

2025-05-30 21:12:24 468

原创 PiSSA: Principal Singular Values and Singular Vectors Adaptation of Large Language Models

探究大模型微调 Lora 的不同形态: AdaLora、 AsLora、 PiSSA、 DoRA (qq.com)

2025-05-30 20:48:44 91

原创 ADALoRA: 建模成 SVD 分解的形态,对每一层参数设置不同的秩

AdaLoRA: Adaptive Budget Allocation for Parameter-Efficient Fine-Tuninghttps://arxiv.org/pdf/2303.10512探究大模型微调 Lora 的不同形态: AdaLora、 AsLora、 PiSSA、 DoRA (qq.com)

2025-05-30 19:13:06 105

原创 Flat-LoRA: Low-Rank Adaptation over a Flat Loss Landscape

摘要1.尽管在提高方面取得了进展,但与之间的关系常常被忽视。2.在在中可能表现出尖锐的方向,这可能会损害能力。3.我们引入了,旨在识别位于。与带来显著计算和内存开销的尖锐感知最小化方法不同,我们采用目标来保持训练效率。引言1.仅对低秩矩阵进行微调,这些矩阵可以在训练后与预训练权重合并,在推理过程中不会产生额外开销。这种方法显著减少了可训练参数的数量,从而降低了训练和存储需求。2.许多方法被提出以增强LoRA性能,例如(Zhang等人,2023a)将分解为(Liu等人,2024)改进的。

2025-05-30 18:15:20 733

原创 多任务Lora

Chengsong Huang et al. “LoraHub: Efficient Cross-Task Generalization via Dynamic LoRA Composition”. In: arXiv preprint arXiv:2307.132

2025-02-23 16:47:56 224

原创 Pissa:大型语言模型的主奇异值和奇异向量适应

对大型语言模型(LLMs)进行微调是一种非常有效的技术,可以提升它们在各种任务中的能力 [1, 2, 3, 4],确保模型能够遵循指令 [5, 6, 7],并赋予模型期望的行为,同时消除不期望的行为 [8, 9]。因此,提出了各种参数高效微调(PEFT)[12, 13] 方法,以减少微调所需的参数数量和内存使用,同时保持与全参数微调相当的性能。1.我们分析了 LoRA 中初始梯度的大小和方向,表明 A 最初的梯度为零,而 B 的梯度是随机的,这致收敛速度变慢,并可能导致收敛到次优的局部最小值。

2025-02-23 15:08:30 279

原创 一文彻底搞懂Transformer - FFNN(前馈神经网络)

虽然FFN的输入输出维度都是512,但是输出的512维度特征和输入的512为特征是不一样的。但很多时候512维不够用,我们希望模型可以提取出更多维度的特征,于是,通过 FFN 两个相邻 FC 层的运算,可以将 512 维扩展到2048维( FFN 的隐层),随后再降维到512维作为 FFN 的输出。因为 FFN 层由两个线性变换层(FC)和一个非线性激活函数(ReLU)组成,通过在两个 FC 中间添加非线性变换(这是非常常见的操作),可以增加模型的表达能力,使模型能够捕捉到复杂的特征和模式。

2025-02-23 14:55:31 253

原创 BERT模型(非常详细)

BERT 使用双向方法(B 就是 Bidirectional(双向)),同时考虑句子中单词的左右上下文,而不是按顺序分析文本,BERT 同时查看句子中的所有单词。BERT 是双向的,它同时考虑左侧(“The bank is situated on the”)和右侧上下文(“of the river”),从而实现更细致的理解。它理解缺失的单词可能与银行的地理位置有关,展示了双向方法带来的语境丰富性。在单向模型中,对空白的理解将严重依赖于前面的单词,并且模型可能难以辨别“bank”是指银行还是河的一侧。

2025-02-23 14:38:14 407

原创 图解Transformer

继续将Encoder和Decoder拆开,可以看到完整的结构,如下图所示:上图Decoder接收了Encoder的编码矩阵,然后首先输入一个开始符 "<Begin>",预测第一个单词,输出为"I";然后输入翻译开始符 "<Begin>" 和单词 "I",预测第二个单词,输出为"am",以此类推。这是Transformer的大致流程,接下来介绍里面各个部分的细节。上图是Transformer的内部结构,其中红色方框内为,是由多个组成,具体结构如下图:多头注意力LayerNorm。

2025-02-23 14:07:56 338

原创 具有全局损失收敛保证的联邦动态低秩训练

邦动态低秩训练(FeDLRT)方案,以减少客户端计算和通信成本。我们的方法基于动态低秩分裂方案,用于流形约束优化,创建网络权重的全局低秩基,使客户端能够在小系数矩阵上进行训练。这种全局低秩基使我们能够引入方差校正方案,并证明全局损失下降并收敛到一个稳定点。FeDLRT通过动态增加和截断低秩基来优化计算和通信资源的利用。值得注意的是,FeDLRT仅在每个客户端训练一个小的系数矩阵。

2025-02-22 17:47:00 480

原创 On the Effectiveness of Parameter-Efficient Fine-Tuning

然而,随着参数数量呈指数增长,达到数十亿(Brown et al. 2020)甚至数万亿(Fedus, Zoph, and Shazeer 2021),为每个下游任务保存完全微调的参数变得非常低效。在本文中,我们首先根据这些方法选择可调参数的方式,将现有方法分为三类(即随机方法、基于规则的方法和基于投影的方法)。在本文中,我们首先根据这些方法选择要微调的参数的方式,将现有方法分为随机方法、基于规则的方法和基于投影的方法。实验结果表明,我们提出的SAM模型优于许多强大的基线模型,并且验证了我们的理论分析。

2025-02-21 16:41:17 724

原创 Policy-Based Reinforcement Learning

wang

2025-02-20 19:39:09 100

原创 强化学习笔记 wangshusen

2025-02-20 19:21:04 94

原创 AdaptFormer

预训练视觉变换器(ViTs)在视觉识别领域取得了巨大成功。接下来的挑战是如何将ViT适应于各种图像和视频识别任务。由于计算量大和内存存储需求高,这种适应过程面临挑战。每个模型都需要独立且完整的微调过程以适应不同任务,这限制了其在不同视觉领域的迁移能力。为了解决这一挑战,我们提出了一种有效的变换器适应方法,即AdaptFormer,能够高效地将预训练的ViT应用于多种不同的图像和视频任务。

2025-02-18 16:28:26 693

原创 双头个性化LORA

值得注意的是,联邦基础模型(FedFM)作为一种隐私保护方法出现,通过联邦学习(FL)设置协作微调模型,利用分布式数据集(数据是非独立同分布的,non-IID)进行训练。然而,现有研究的一个关键问题是忽视了现实应用中的测试时分布偏移(test-time distribution shifts),传统用于个性化联邦学习中的测试时分布偏移方法对FedFM的效果较差,因为它们无法适应复杂的分布偏移场景,并且需要训练所有参数。通过与基础模型协作,全局适配器和局部适配器共同应对测试时分布偏移和客户端特定个性化。

2025-02-18 16:13:02 227

原创 个性化联邦微调用于异构数据:一种两级低秩适应方法

尽管近期研究已经将参数高效的微调技术(如低秩适应[LoRA]或提示训练)应用于联邦环境,但它们往往忽视了数据异构性和模型个性化的需求。为此,我们提出了PF2LoRA,这是一种基于LoRA的新型个性化联邦微调算法,采用两级低秩适应框架。在冻结预训练基础模型权重的前提下,我们的算法旨在同时学习两级适应:第一级学习适用于所有客户端的通用适配器,第二级促进个体客户端的个性化。该框架明确适应了客户端之间适配器矩阵秩的变化,并且由于第二级适应仅包含少量参数,因此相比第一级引入的额外内存开销极小。

2025-02-18 12:57:40 164

原创 FLORA: Low-Rank Adapters Are Secretly Gradient Compressors

在本文中,我们提出了FLORA(从LoRA到高秩更新),这是一种新颖的优化技术,使用次线性内存进行梯度累积和动量计算。此外,我们的方法只存储压缩后的梯度累积和动量,从而将优化状态的内存使用量降低到次线性水平。然而,Adafactor为了实现次线性复杂度,放弃了动量技术,牺牲了动量的方差减少和阻尼效果(Rae等人,2021)。例如,GPT-3(Brown等人,2020)和Stable Diffusion(Rombach等人,2022)使用Adam(Kingma和Ba,2015)进行训练,其中应用了动量。

2025-02-17 16:06:45 789

原创 A Rank Stabilization Scaling Factor for Fine-Tuning with LoRA

我们的分析证明,LoRA适配器应该被除以秩的平方根因子,而不是传统LoRA实现中适配器被除以秩的因子。它们在多种应用中取得了成功,包括机器翻译(Zhu et al., 2023)、疾病预测(Rasmy et al., 2021)、为机器人控制策略生成代码(Liang et al., 2023),以及聊天助手(Ouyang et al., 2022)。通过修改LoRA的缩放因子,rsLoRA方法可以轻松实现微调的计算/性能权衡:在训练过程中,可以使用更高的秩来换取更好的微调性能,而无需改变推理计算成本。

2025-02-16 21:25:40 469

原创 ADALORA: ADAPTIVE BUDGET ALLOCATION FOR PARAMETER-EFFICIENT FINE-TUNING

然而,常见的做法是对预训练模型中的所有参数进行微调,当存在大量下游任务时,这种方法变得难以承受。因此,许多微调方法被提出,以一种参数高效的方式学习预训练权重的增量更新,例如低秩增量。这些方法通常会将增量更新的预算均匀分配到所有预训练权重矩阵中,却忽略了不同权重参数的重要性差异。这种新颖的方法使我们能够有效地修剪不重要更新的奇异值,本质上是减少它们的参数预算,同时避免密集的精确奇异值分解(SVD)计算。我们在自然语言处理、问答和自然语言生成等多个预训练模型上进行了广泛的实验,以验证AdaLoRA的有效性。

2025-02-16 20:57:24 218

原创 Federated Sketching LoRA

挑战尽管将联邦学习与LoRA结合可以通过矩阵分解减少可训练参数的数量,但通信成本仍然随着分解的秩线性增加。当复杂任务需要更高秩的LoRA模块时,这尤其会带来挑战,尤其是在资源受限的移动设备上。此外,分布式设备之间计算和通信能力的异质性使得统一的秩变得低效:固定的秩r对于某些设备来说可能过大,而对于更强大的设备来说又过小,导致资源未充分利用。因此,一种既能减少通信开销又能适应异构设备能力的解决方案对于LLM的协作微调非常必要。尽管一些现有的方法试图提供解决方案(Cho et al., 2024;

2025-02-16 18:26:55 733

原创 FFA-LoRA

摘要:低秩适配(LoRA)是针对预训练语言模型进行任务特定参数高效微调(PEFT)的最流行方法之一,因其良好的性能和计算效率而受到广泛应用。LoRA通过在每个冻结的预训练模型模块上方注入两个可训练的低秩分解矩阵的乘积来实现。然而,在隐私保护的联邦学习(FL)环境中应用LoRA时,可能会由于以下原因变得不稳定:(1)数据异质性和多步本地更新的影响不容忽视;(2)为保证差分隐私(DP)而在更新梯度上添加的噪声可能会被放大;(3)最终性能对超参数非常敏感。导致这些现象的一个关键因素是本地客户端联合优化两个低秩矩阵

2025-02-08 21:06:01 534

原创 FlexLoRA

正如我们在表4中实证展示的那样,由于更大的秩带来的收敛速度提升,足以弥补每轮训练更多参数带来的额外开销,从而在整体效率上获得净收益,并减少了完成训练所需的总时间。为了充分利用本地客户端的资源,我们遵循在客户端资源预算允许的情况下分配尽可能高的秩的原则,这受到我们实证发现的启发,即较大的秩通常能带来更好的泛化能力。由于其简单性,FlexLoRA 可以插入一系列基于 LoRA 的 FL 方法中,释放其利用可用但未充分利用的资源的潜力,通过更大的 LoRA 秩贡献更泛化的知识,这也得到了我们的理论分析的支持。

2025-02-08 20:26:43 493

原创 LoRA-FAIR: Federated LoRA Fine-Tuning with Aggregation and Initialization Refinement

通过这种简单而有效的设计,LoRA-FAIR提供了一种方法,通过保留初始模型中的共享平均信息,同时努力在服务器端实现准确聚合,从而近似解决这两个挑战的理想方案。尽管LoRA能够实现高效的微调,但它需要大量的数据来进行适应,这使得联邦学习(FL)成为一个有吸引力的解决方案,因为FL提供了一个保护隐私的协作框架。现有的方法分别解决这些挑战,限制了它们的有效性。我们提出了LoRA-FAIR,一种新颖的方法,通过在服务器端引入一个校正项,同时保留原始的LoRA模块,同时解决这两个问题,提高了聚合效率和准确性。

2025-02-08 19:43:56 791

原创 LORA原文解读

我们关注 Houlsby 等人(2019)最初的设计,其中每个 Transformer 块包含两个适配器层,以及 Lin 等人(2020)最近提出的一种设计,其中每个块仅包含一个适配器层,但额外增加了 LayerNorm(Ba 等人,2016)。随着更大规模的模型每隔几个月被训练出来,这一问题从GPT-2(Radford等人,2019)或RoBERTa-Large(Liu等人,2019)的“不便”转变为GPT-3(Brown等人,2020)的1750亿可训练参数的“关键部署挑战”。

2025-02-08 18:17:34 615

原创 pFedLoRA: Model-Heterogeneous Personalized FederatedLearning with LoRA Tuning

本文提出了一种新型高效的模型异质性个性化联邦学习框架FedLoRA,该框架基于LoRA(Low-Rank Adaptation)调整技术。FedLoRA通过在每个客户端的本地异构模型中插入一个小型低秩同质适配器(adapter),并利用迭代训练方法实现全局与局部知识的交换。这些小型适配器在联邦学习服务器上被聚合生成全局适配器,从而支持客户端之间的知识转移。理论分析证明了FedLoRA的收敛性。

2025-02-08 18:06:02 944

原创 FLoRA: 基于异构低秩适应的联邦微调大语言模型

大语言模型(LLMs)的快速发展推动了人工智能的进步,预训练的LLMs可以通过微调适应各种下游任务。联邦学习(FL)通过利用客户端的本地数据进行原位计算,进一步增强了隐私保护的微调,消除了数据移动的需求。然而,考虑到LLMs的巨大参数量,微调LLMs对于资源受限且异构的FL客户端来说是一个挑战。之前的方法采用了低秩适应(LoRA)进行高效的联邦微调,但在LoRA适配器上使用了传统的FL聚合策略。这些方法导致了数学上不准确的聚合噪声,降低了微调效果,并且未能解决异构LoRA的问题。

2025-01-09 22:33:12 1250 2

原创 PSRide: 保护隐私的共享乘车匹配系统

2025-01-09 20:28:23 97

原创 Adam优化器的并行化和分布式

2025-01-09 20:21:33 99

原创 深度学习优化器

RAdam(Rectified 修正 Adam)是由Liyuan Liu et al. 提出的。这一算法的详细描述和原理可以在论文《On the Variance of the Adaptive Learning Rate and Beyond》1中找到,该论文首次发表于2019年,并在2020年的ICLR会议上发表。论文中提出了RAdam算法,通过引入一个修正项来解决自适应学习率在模型训练早期阶段过大的方差问题,从而改善了优化过程的稳定性和鲁棒性。1. RAdam算法的提出。

2025-01-09 19:35:37 201

原创 零阶优化 微调

零阶优化(Zero-Order Optimization)是一种不依赖于梯度信息的优化方法。与一阶优化方法(如梯度下降)不同,零阶优化方法仅通过目标函数的函数值来进行优化,而不需要计算或估计梯度。零阶优化方法是一类不依赖于梯度信息的优化技术,适用于梯度不可得或难以计算的问题。尽管其收敛速度较慢且计算成本较高,但在许多实际应用中,零阶优化方法仍然是解决复杂优化问题的有效工具。随机搜索是最简单的零阶优化方法之一。它通过在参数空间中随机采样点,并选择使目标函数值最小的点作为优化结果。

2025-01-08 20:24:46 233

原创 ORide: 一种保护隐私且可追责的网约车服务

2025-01-08 20:19:01 127

原创 MIME FL

联邦学习(FL)是一种优化挑战,因为不同客户端之间的数据异质性可能导致客户端漂移现象。实际上,设计一种在联邦学习中统一优于简单中心化训练的算法一直是主要的未解决问题。在这项工作中,我们提出了一个通用的算法框架MIME,该框架i)减轻客户端漂移,ii)将任意中心化优化算法(如动量和Adam)适应到跨设备联邦学习设置中。MIME使用控制变量和服务器级优化器状态(例如动量)在每个客户端更新步骤中,确保每个本地更新模仿在独立同分布数据上运行的中心化方法。

2025-01-05 23:13:31 462

原创 Adam优化

Adamax算法在深度学习中得到了广泛的应用,特别是在处理稀疏数据和高维参数问题时表现出色。例如,在自然语言处理、图像识别和推荐系统等任务中,Adamax能够有效地加速收敛并提高性能。Adamax是Adam的一种变体,此方法对学习率的上限提供了一个更简单的范围。总的来说跟Adam效果差不了多少。

2025-01-05 19:55:49 338

基于专利数据的技术融合研究综述_吕璐成.pdf

基于专利数据的技术融合研究综述_吕璐成.pdf

2021-09-03

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除