LoRA技术升级！LoRA-RITE在Gemma-2B上实现4.6%准确率提升！

沃恩智慧

于 2025-02-28 20:00:00 发布

阅读量460

点赞数 4

分类专栏：机器学习深度学习人工智能文章标签：人工智能机器学习深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_73122726/article/details/145926726

版权

人工智能同时被 3 个专栏收录

104 篇文章

订阅专栏

90 篇文章

订阅专栏

63 篇文章

订阅专栏

近期，参数高效微调（PEFT）技术在基础模型（FMs）领域取得了显著进展。清华大学唐杰教授团队发表了一篇综述论文，全面梳理了PEFT技术在各类基础模型中的应用。该论文指出，PEFT技术通过减少可训练参数和计算开销，在微调过程中展现出显著的成本效益，同时能够达到接近全量微调的性能。

例如，LoRA技术通过仅更新模型中低秩矩阵的参数，显著减少了训练所需的计算资源。此外，LoRA的升级版LoRA-RITE在ICLR 2025上提出，通过实现变换不变性，进一步优化了微调过程，显著提升了模型性能。

这些创新成果不仅推动了PEFT技术在语言模型、视觉模型和多模态模型中的应用，还为研究人员提供了宝贵的参考和研究方向。我整理了10篇【参数高效微调】的相关论文，全部论文PDF版，工中号【沃的顶会】回复“PEFT”即可领取。

Parameter Efficient Fine-Tuning for Deep Learning-Based Full-Waveform Inversion

文章解析

本文提出了一种任务无关的基础模型用于地震全波形反演（FWI），并引入参数高效微调（PEFT）技术以降低计算开销。

研究表明，PEFT在减少内存和计算需求的同时，能够实现与全量微调相当的结果，并在分布外任务上表现优于传统方法。

创新点

提出了适用于不同地质特征的任务无关基础模型，超越了特定任务模型的表现。

首次将PEFT技术应用于FWI领域，显著降低了计算和内存需求。

证明了PEFT在低数据场景和分布外任务中的优越性能，提升了模型泛化能力。

研究方法

构建了一个任务无关的基础模型，捕捉跨任务的通用特征。

通过全量微调验证了基础模型优于从头训练的特定任务模型。

应用PEFT方法（如LoRA）对基础模型进行微调，仅更新少量参数以适应新任务。

使用OpenFWI等基准数据集评估模型在多种地质场景下的表现。

研究结论

基础模型结合PEFT可以有效提升FWI任务的泛化能力。

PEFT在低数据场景和分布外任务中表现出色，适合地震反演领域的实际应用。

研究为开发高效、可扩展的DL-FWI模型提供了新的方向。

Adaptive Rank Allocation for Federated Parameter-Efficient Fine-Tuning of Language Models

文章解析

论文提出了一种新的联邦学习方法FedARA，通过截断奇异值分解（SVD）适应、动态秩分配和基于秩的模块剪枝三种创新技术。

解决了非独立同分布数据和固定参数配置对联邦参数高效微调（FedPEFT）的影响，显著提升了通信效率和系统性能。

创新点

首次提出全面解决FedPEFT中非IID数据和固定参数配置问题的方法。

引入截断SVD适应技术以增强模型灵活性和表达能力。

提出动态秩分配策略以优化通信效率。

设计基于秩的模块剪枝机制以减少计算和存储开销。

研究方法

利用截断SVD适应技术引入额外的对角矩阵更新幅度，缓解非IID数据影响。

通过动态秩分配方法生成局部和全局秩掩码，逐步修剪不重要秩以提高通信效率。

采用基于秩的模块剪枝机制移除不活跃模块，降低本地训练时间和峰值内存使用。

在多种嵌入式设备和数据集上进行实验验证方法的有效性。

研究结论

FedARA在非IID数据下平均比弱基线高8.49%，强基线高6.95%。

通信效率提升2.40倍，总训练时间减少最高达48.90%，能源消耗降低最多46.95%。

方法适用于移动设备，在资源受限环境下表现出色。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。