【peft】huggingface大模型加载多个LoRA并随时切换

最新推荐文章于 2025-04-08 16:48:27 发布

QxAIRobot

最新推荐文章于 2025-04-08 16:48:27 发布

阅读量1.8w

点赞数 24

分类专栏： Python pytorch 文章标签： python peft lora llm

本文链接：https://blog.csdn.net/liuqixuan1994/article/details/130664198

版权

加载多个LoRA并随时切换

参考Multi Adapter support
要求 peft>=0.3.0

用法说明

在加载第一个适配器时，可以通过 PeftModel.from_pretrained 方法并指定 adapter_name 参数来给它命名。否则，将使用默认的适配器名称 default。
要加载另一个适配器，请使用 PeftModel 的 load_adapter() 方法，例如：model.load_adapter(peft_model_path, adapter_name)
要切换适配器，请使用 PeftModel 的 set_adapter() 方法，例如：model.set_adapter(adapter_name)
要禁用适配器，请使用上下文管理器 disable_adapter()，例如：with model.disable_adapter()
特别适用于LoRA方法：要合并和卸载当前活动的适配器，以便将LoRA权重添加到基础模型权重中，并将注入的LoRA模型删除以恢复具有添加了LoRA权重的Transformers基础模型的模型，请使用 merge_and_unload()方法，例如：model = model.merge_and_unload()

例子

from peft import PeftModel
from transformers import LlamaTokenizer

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

QxAIRobot

关注关注

24
点赞
踩
42

收藏

觉得还不错? 一键收藏
5
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

第十四章：huggingface的LoRA原理与相关文件保存方法

weixin_38252409的博客

06-14

807

在huggingface中，很多情况是使用LoRA方法来训练模型。有关LoRA训练获得权重与加载，以及如何LoRA继续resume训练等问题，尚未有一个较好文章说明。因此，本文将详细说明LoRA相关内容。首先介绍了LoRA（Low-Rank Adaptation）的原理及相关内容；其次也对训练相关各种模型权重、LoRA权重、配置文件、优化器、调度器以及训练器状态和随机状态保存方法；接着给出了关于LoRA训练与恢复方法Demo与介绍，包括LoraConfig配置文件介绍和PEFT的LoRA训练；

huggingface - PEFT.参数效率微调

强化学习曾小健

06-21

1334

我们可以观察到，只有参数可训练，我们实现的性能 (F1 0.777) 可与完全微调 (F1 0.786) 相媲美（没有任何 hyerparam 调整运行以提取更多性能），并且此检查点仅为. 现在，如果有这样的数据集，只需为每个数据集一个这些 PEFT 模型，并节省大量存储空间，而不必担心骨干/基础模型的灾难性遗忘或过度拟合问题。需要注意的一点是，我们并没有尝试通过使用输入指令模板、LoRA 超参数和其他与训练相关的超参数来压缩性能。使用具有 CPU 卸载的 DeepSpeed 的 PEFT-LoRA。

5 条评论您还未登录，请先登录后发表或查看评论

【大模型】一个基座模型部署多个lora

己亥孟陬

04-16

3199

vllm推出了一个很棒的功能，可以分别加载base模型和lora层，并且可以加载多个lora层，通过指定lora层名字确定到底调用哪一个。这种特性是非常有价值的：同时加载N套微调参数，这样做不会影响大模型原有能力，通过选择微调层可以提供给用户不同的专项微调能力，而且可以实现权限管控，防止敏感信息泄露，此外更多新微调能力的接入也非常方便。这对GPU的消耗也太高了吧！一种很直接的思路是，将多个微调任务整合起来，一次性lora微调多个任务，这样就只需要部署一个微调模型了。

【搭建框架必备基础】快速上手peft

weixin_68094467的博客

03-10

1687

在学习别人的开源框架的时候经常会看到peft，虽然知道这个可以加载模型，但是，不是还可以通过AutoModelForCausalLM.from_pretrained() 嘛，为什么还会有PeftModel.from_pretrained() ，本文将讲解这个问题的同时尽量搞懂peft的其他用法，以便我们记忆后快速上手而不至于只会照抄而不懂内涵。

大模型加载多个LoRA并灵活切换

记录成长

09-21

2910

LoRA是一种有效的模型适配技术，它通过在模型的权重矩阵中引入低秩结构来实现参数的高效更新。这种方法不仅减少了模型的存储需求，还加快了训练速度，使得在资源有限的情况下微调大型模型成为可能。

大模型PEFT之LoRA

谁怕平生太急

05-16

631

训练：固定预训练权重W，只训练低秩矩阵A和B，保存时只需保存A和B。LoRA实验：通过实验验证了LoRA低秩矩阵的有效性，包括不同r值下的微调效果、不同低秩空间的相交程度、不同层的r值设置，以及预训练权重与微调权重的关系。Adapter Tuning：在模型中添加额外知识模块（Adapter），其余参数保持冻结，降低训练代价，但会增加模型层数和训练推理速度。（B 是降维矩阵，A是升维矩阵，其中 A 正常随机数初始化，B 全 0 初始化，从而保证训练初期的稳定性）一般 α设置为32，r设置为 4。

大模型高效微调工具 Hugging Face PEFT

Whitney66的博客

08-18

1969

本文主要介绍了PEFT库的内容、与Transformers的集成、核心知识点如AutoPeftModels、PeftConfig、PeftType和TaskType，以及LoRA在文本生成和语音识别任务中的实战应用。

丝滑切换多个LoRA权重（LoRA加载与卸载方法）

年少的勇气已经用完，剩下的就是三思而后行

08-18

1357

对于 LoRA 方法特别说明：要合并并卸载当前激活的适配器，以便 LoRA 的权重被添加到基础模型的权重中，并移除注入的模型以恢复基础的 transformers 模型（同时保留添加的 LoRA 权重），请使用。

基于 LoRA 的国产大模型增量学习实战：快速适配新领域

最新发布

在信息的熵增中，记录结构、重建秩序。技术思想者的笔记，系统构建者的注释。

04-08

655

很多人觉得微调大模型得上上万张显卡，动辄几十亿条数据，其实真没那么夸张。有了 LoRA，你甚至可以用一台 24G 显存的单卡，把 Qwen、DeepSeek 这类国产大模型调得服服帖帖，特别是在那种行业特定小数据集里，效果提升是真的明显。这篇文章不整虚的，咱就说怎么搞一套能跑起来的 LoRA 精调流程，数据怎么准备、代码怎么写、显存怎么省、效果怎么测、模型怎么部署。全流程跑完一遍，你基本就能上手带项目了。

基于 Qwen2 大模型微调技术详细教程（LoRA 参数高效微调和 SwanLab 可视化监控）

老牛啊

07-20

3545

本教程详细介绍了 LoRA 参数高效微调技术，包括数据集准备和处理、模型加载、参数设置等，然后以 Qwen2-0.5B 预训练模型实践，进行了文本分类能力微调，微调过程通过 SwanLab 可视化界面查看，最终微调模型进行测试数据评估……

30-如何使用 PEFT库中 LoRA？.pdf

12-31

此外，对于huggingface大模型，PEFT库还支持加载多个LoRA模块并随时切换，提供了灵活的微调和推理支持。在高效参数微调后，还需要考虑如何存储LoRA的配置和模型。对于模型推理，需要加载LoRA模块并处理权重合并的...

（2024，LoRA压缩和多LoRA快速切换，联合对角化，重构误差）先压缩再提供服务：以极低的开销为数千个 LoRA提供服务

qq_44681809的博客

07-30

947

通常使用 LoRA 微调 LLM，但在 GPU 内存中存储成千上万的 LoRA 是不可行的。为此，本文考虑通过 SVD 对 LoRA 进行单独压缩，并提出将 LoRA 联合压缩到匹配 LoRA 专属缩放矩阵的共享基底。

Diffusers代码学习：多个LCM Lora

duhaining1976的博客

06-18

821

AIGC研究及应用系列

Hugging Face PEFT 调优实战附代码

sinat_39483965的博客

05-22

3494

Hugging Face PEFT调优实战附代码

peft模型微调_Lora

LLMUZI123456789的博客

03-20

1100

1、增加低秩矩阵：对于每一个要微调的层，LoRA不改变原有模型参数矩阵，而是引入两个低秩矩阵A和B，维度分别为dxr和rxd，其中r远小于d（d是原权重矩阵的列数或行数，通常是模型的隐藏维度大小）。5、合并参数：训练完成后，新学到的低秩矩阵参数与原始模型参数结合，共同作用于模型预测，在保证模型对新任务有良好表现的同时，避免了在推理阶段增加额外的计算负担。3、冻结原始参数：在微调过程中，原有的模型参数W会被冻结，即在训练时不会更新，只针对新增的低秩参数A和B进行优化。

LLMs PEFT技术1：LoRA Parameter efficient fine-tuning PEFT techniques 1: LoRA Low rank Adaptation

AI架构师易筋

08-28

317

低秩适应（LoRA），简称为LoRA，是一种属于重新参数化类别的参数高效微调技术。让我们来看看它是如何工作的。作为一个快速提醒，这是你在课程早期看到的transformer架构图。输入提示被转化为标记，然后转换为嵌入向量，并传递到transformer的编码器和/或解码器部分。在这两个组件中，有两种类型的神经网络：自注意网络和前馈网络。这些网络的权重是在预训练期间学习的。在创建嵌入向量之后，它们被送入自注意层，其中一系列权重被应用于计算注意分数。在完整的微调中，这些层中的每个参数都会被更新。

m-LoRA：如何在单GPU上高效微调数十个大语言模型

zenRRan的博客

12-29

519

作者: qiqi，mike，maomao单位: 四川大学 KDE Lab来自：AINLP快来！NLP论文投稿、LLM交流、论文直播群大型语言模型（LLM）对现代应用产生了显著影响，应用领域从自然语言处理拓展到包括OpenAI的Chatgpt及微调的LLM在内的更多特定领域任务。通常LLM先在大数据集上预训练，再根据具体应用进行微调。然而，传统微调方法成本高昂，涉及更新所有预训练参数。LoRA技术通...

如何使用 PEFT库中 LoRA

Java架狗师知识框架速查表

11-23

2444

本文详细介绍了如何使用PEFT库中的LoRA模块对大模型进行高效参数微调，包括配置LoraConfig、模型加载策略、显存优化策略、LoRA模块的代码实现、模型存储和推理加载等多个方面。通过这些方法，LoRA在提高预训练模型在新任务上的性能方面展示了巨大的潜力。

【自然语言处理】大模型高效微调：PEFT 使用案例

wzk4869的博客

08-09

5992

【自然语言处理】大模型高效微调：PEFT 使用案例