peft微调参数解析

一只笨鸟hh

已于 2024-01-24 20:35:44 修改

阅读量903

点赞数 12

文章标签：算法自然语言处理

于 2024-01-24 17:50:02 首次发布

本文链接：https://blog.csdn.net/qq_43605231/article/details/135826073

版权

文章目录

前言
一、LoRA
二、P-Tuning(v2)

前言

本文讨论用peft库进行大模型微调，采取LoRA和P-Tuning(v2)两种方式。

一、LoRA

基于LoRA的原理，将权重矩阵分解为两个更低维的矩阵，以减少训练的参数量，即ΔW = AB。ΔW = (m,n)，A=(m,r)，B=(r,n)。所以最主要的一个参数为r，即矩阵的秩。

另LoRA中规定一个缩放系数alpha，本质上是LoRA应用于预训练权重的影响大小。scaling = alpha / r ，weight += (lora_B @ lora_A) * scaling。通常r和alpha设置为1:2。

Lora中同时提供dropout参数来防止过拟合。

用peft库可直接使用LoraConfig方法设置各参数。

Config = LoraConfig(r=8,              
                    lora_alpha=16,  
                    target_modul

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

一只笨鸟hh

关注关注

12
点赞
踩
10

收藏

觉得还不错? 一键收藏
1
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

LLMs之PEFT：大模型核心技术—PEFT(参数高效微调)的简介(指令微调/RLHF微调)、微调两大范式+三类五法—(Adapter/Prefix/P-tuning/HINT，Delta-tunin

头部AI社区如有邀博主AI主题演讲请私信—心比天高，仗剑走天涯，保持热爱，奔赴向梦想！低调，专注，谦虚，自律，反思，成长，还算比较正能量的博主，公益免费传播…内心特别想在AI界做出一些可以推进历史进程影响力的技术(兴趣使然，有点小情怀，也有点使命感呀

06-21

2485

LLMs之PEFT：大模型核心技术—PEFT(参数高效微调)的简介(指令微调/RLHF微调)、微调两大范式+三类五法—(Adapter/Prefix/P-tuning/HINT，Delta-tuning，LoRA/QLoRA/LOMO)之详细攻略 LLMs之PEFT：大模型核心技术—PEFT(参数高效微调)的简介(指令微调/RLHF微调)、微调两大范式+三类五法—基于添加式(引入额外可训练参数或模块，如Adapter/Prefix/P-tuning/HINT)、基于规范化(冻结某些固有模型参数同时指定

cv君独家视角 | AI内幕系列二：LORA微调，让大模型更平易近人

cv君的博客

05-29

2万+

LORA 在ICLR2022中提出，是利用低秩适配（low-rankadaptation）的方法，可以在使用大模型适配下游任务时只需要训练少量的参数即可达到一个很好的效果。由于 GPU 内存的限制，在训练过程中更新模型权重成本高昂。例如，假设我们有一个 7B 参数的语言模型，用一个权重矩阵 W 表示。在反向传播期间，模型需要学习一个 ΔW 矩阵，旨在更新原始权重，让损失函数值最小。

1 条评论您还未登录，请先登录后发表或查看评论

PEFT LoraConfig参数详解

新缸中之脑

11-21

1万+

参数高效微调 (PEFT) 可以使预训练模型高效适应下游应用，而无需微调所有模型参数。PEFT 支持广泛使用的大型语言模型低秩适应 (LoRA)。为了从预训练的 Transformer 模型创建 LoRA 模型，我们导入并设置 LoraConfig。例如，NSDT在线工具推荐：让我们回顾一下 LoraConfig 中的参数。

LoRA（Low-Rank Adaptation）微调参数详解与步骤指南

最新发布

风一样

04-07

1989

LoRA微调通过低秩矩阵分解实现了参数高效优化，其核心在于秩的选择、学习率动态调整、硬件资源适配的三者协同。建议遵循“显存试探→任务适配→参数调优”的流程，结合前沿技术（如QLoRA、LoRA+）实现高效训练。实际应用中需通过AB测试验证参数组合，尤其关注梯度范数和验证集损失的动态变化。

知识图谱：【知识图谱问答KBQA（六）】——P-tuning V2训练代码解析

u013010473的博客

02-18

2842

文章目录一.arguments.pyDataTrainingArguments类ModelArguments类QuestionAnwseringArguments类get_args()函数二.run.pyStep 1. 获取所有参数Step 2. 根据任务名称选择导入对应的get_trainerStep 3. 将参数args传入get_trainer,得到trainer1）根据模型名称或路径加载tokenizer2）根据tokenizer和参数data_args、training_args加载数据集data

深度学习-大模型LLM-微调经验分享&总结

记录学习的小白

06-02

2022

PT方法占用显存更大，因为也增加了很多而外参数;测试耗时，采用float16进行模型推理，由于其他方法均增加了额外参数，因此其他方法的推理耗时会比Freeze方法要高。当然由于是生成模型，所以生成的长度也会影响耗时;模型在指定任务上微调之后，并没有丧失原有能力，例如生成“帮我写个快排算法”，依然可以生成-快排代码;

大模型参数高效微调（PEFT）技术解析及微调加速实践

python122_的博客

06-17

2096

本文详细介绍了几种高效微调方法的原理解析和实验效果对比，并基于Unsloth做了一些微调加速的实践尝试。实验效果显示结合优秀的低参微调方法和微调加速，完全可以做到极为高效的微调大模型，可以在极低的资源占用上得到媲美全参微调的效果。

让天下没有难Tuning的大模型-PEFT（参数效率微调）技术简介

强化学习曾小健

06-20

584

让天下没有难Tuning的大模型-PEFT技术简介》最近，深度学习的研究中出现了许多大型预训练模型，例如GPT-3、BERT等，这些模型可以在多种自然语言处理任务中取得优异的性能表现。而其中，ChatGPT模型因为在对话生成方面的表现而备受瞩目，成为了自然语言处理领域的热门研究方向。然而，这些大型预训练模型的训练成本非常高昂，需要庞大的计算资源和大量的数据，一般人难以承受。这也导致了一些研究人员难以重复和验证先前的研究成果。

Python_PEFT状态参数高效微调.zip

01-10

这表明压缩包中可能包含了与Python相关的PEFT微调技术的实现代码或框架。用户可以通过阅读“说明.txt”来获取安装、使用或配置该技术的具体指导。由于压缩包中还包括了“peft_main.zip”，这表明微调技术可能是一个...

PEFT和LoRA：高效的参数高效微调方法

AI天才研究院

10-14

1253

本文将详细介绍PEFT和LoRA两种参数高效的微调方法，探讨其在深度学习领域的应用。通过对这两种方法的核心概念、数学模型、算法原理、应用实践以及优化方法进行全面剖析，本文旨在为读者提供对PEFT和LoRA的深入理解，并展示它们在实际项目中的价值。

hugging face参数高效微调peft源码解析

胖胖大海的博客

07-09

4278

对于Auto-Encoding类型的任务，在模型的训练和预测阶段，self-attention都可以并行计算。在hugging face实现的self-attention模块中，为了复用decode生成阶段的key和value，会传入一个past_key_values参数，如果past_key_values不是None，表示前面时间步已经有计算结果了，直接复用上一步的结果，然后将当前时间步的key和value拼接上去，更新后的past_key_values将继续传递到下一个时间步。对应上面讲到的2和3。

LoRA中值得注意的微调细节

qq_41838627的博客

09-24

6755

究竟LoRA怎么用到大模型训练上。首先要有几点认识 1、理论上LoRA可以用到不同类型神经网络的权重矩阵，减少可训练的参数量 2、不同的大语言模型基于Transformer的不同改版，Transformer结构主要self attention层（W_q,W_k,W_v,W_o）和MLP层。

PEFT配置文件LoraConfig中的target_modules参数详解

年少的勇气已经用完，剩下的就是三思而后行

08-07

5015

如果我们采用的是未在实现定义的大语言模型列表内，因此必须手动显示指定。如果你本地安装了pdft安装包，则可以在以下位置看到。针对了部分预制的大语言模型，定义了默认的。

【大模型开发】开源大模型微调：LoRA（Low-Rank Adaptation）技术

人工智能(AI)技术，大模型技术，深度学习，机器学习，计算机视觉，AI工具实践应用等分享

03-12

1217

LoRA 是一种高效的参数微调技术，旨在解决大规模预训练模型全参数微调时计算和存储开销过大的问题。通过在冻结预训练模型权重的基础上，仅引入两个低秩矩阵进行增量更新，LoRA 实现了对模型进行轻量级定制，既能大幅降低微调参数量，又保持了优异的任务性能。

peft模型微调--P-tuning

LLMUZI123456789的博客

03-12

1060

在P-Tuning中，通常会为输入序列添加一个或多个可学习的向量（虚拟token），这些向量作为额外的“prompt”嵌入到模型的输入序列中，用于指导模型生成与特定任务相关的输出。随着技术的发展，P-Tuning已经迭代到了多个版本（如P-Tuning v1/v2等），每个版本可能有其独特的设计和优化策略。初始化模型：加载预训练的大规模语言模型，并设置模型为只训练部分参数，即只更新prompt token的嵌入。测试与部署：完成训练后，在测试集上评估模型性能，并将微调好的模型应用于实际场景。

ValueError: Please specify `target_modules` in `peft_config`解决方案

热门推荐

weixin_43178406的博客

04-27

4万+

本文主要介绍了ValueError: Please specify `target_modules` in `peft_config`解决方案，希望能对使用peft的同学们有所帮助。在这里插入图片描述文章目录 1. 问题描述 2. 解决方案

参数高效微调PEFT(二)快速入门P-Tuning、P-Tuning V2

qq_44665283的博客

05-28

8602

参数高效微调PEFT(二)快速入门P-Tuning、P-Tuning V2

LoRA、QLoRA微调与Lama Factory

qq_36792999的博客

04-02

1739

1.什么是LoRA 2.LoRA的核心思想 3.LoRA的原理 4.LLaMA-Factory介绍 5.安装LLaMa-Factory 6.使用LLaMaFactory自带的数据集进行LoRA微调 7.LORA指令微调-单轮对话 8.模型合并量化导出 9.通过OpenWebUl部署模型 10.QLoRA指令微调-多轮对话 11.对话模板 12.GGUF

一文彻底搞懂大模型 - Fine-tuning三种微调方式

2301_82275412的博客

10-22

1330

Fine-tuning在生成式AI和大语言大模型（如GPT、LLaMA）的广泛应用中，微调（Fine-tuning）作为模型适应特定任务的关键步骤，其重要性不言而喻。以下将详细介绍三种流行的微调方式：Prompt-tuning、Prefix-tuning和LoRA，深入理解每种方法的原理、特点及应用场景。Fine-tuning方式一：Prompt-tuning什么是 Prompt-tuning？ Prompt-tuning通过修改输入文本的提示（Prompt）来引导模型生成符合特定任务或情境的输出，而无需对

LoRA微调参数设置

03-18

<think>好的，我现在需要帮助用户了解LoRA微调的参数设置方法，并给出指南和示例。根据用户提供的引用资料，我需要整合这些信息，同时遵循系统级指令，比如正确使用LaTeX格式和生成相关问题。首先，我需要回顾用户提供的四个引用内容，看看它们提到哪些关键点： 1. 引用[1]提到LoRA参数数量的计算，例如r=8时参数数量为4,194,304。这说明参数数量可能与模型的维度有关，比如r的选择直接影响可训练参数的数量。这里可能需要解释r的作用，以及如何计算参数数量。 2. 引用[2]指出Sebastian Raschka通过大量实验提供了实用见解，包括配置选择。这可能涉及到最佳实践，比如如何选择r的值，或者alpha参数的建议。 3. 引用[3]比较了全微调和LoRA的优缺点，并讨论了训练经验和技巧。这可能包括参数设置对效果的影响，如选择哪些层应用LoRA，或者学习率调整。 4. 引用[4]给出了不同配置下的显存占用情况，比如LoRA Base和Chat的不同显存使用，以及QLoRA的效果。这可能涉及参数设置对资源消耗的影响，如使用不同的量化方法（如Int4）如何减少显存。接下来，我需要将这些信息组织成一个结构清晰的回答，分步骤解释参数设置方法，并给出示例配置。同时，要确保使用正确的中文术语，并引用对应的文献。可能的步骤包括： 1. 关键参数解释：如r（秩）、alpha（缩放系数）、target_modules（目标层）、dropout等。 2. 参数设置建议：比如r的选择范围，alpha与r的关系，dropout的推荐值。 3. 实验配置示例：比如在Llama2模型上的设置，引用[1]中的例子。 4. 显存优化技巧：如结合QLoRA，调整batch size，梯度检查点等，参考引用[4]的数据。 5. 实用技巧：如学习率调整，多次实验的重要性，参考引用[2]和[3]。需要注意的地方是，必须正确使用LaTeX格式，例如提到参数数量时，用$r \times d$这样的公式，并确保独立公式用$$...$$。同时，生成的相关问题要围绕LoRA参数设置展开，比如如何选择r，参数计算方式，优化方法等。现在需要检查是否有遗漏的要点，比如是否提到了不同层的影响，或者是否有实际代码示例。不过用户要求的是指南和示例，可能不需要具体代码，但可以给出参数配置的示例，如使用HuggingFace的PEFT库设置参数。最后，确保每个引用在适当的地方标注，例如在解释参数数量计算时引用[1]，在优化建议时引用[4]等。</think>### LoRA微调参数设置指南 #### 1. 核心参数解析 LoRA微调的关键参数包括： - **秩（Rank, $r$）**：决定低秩矩阵的维度。参数总量计算公式为： $$ \text{参数数量} = r \times (d_{\text{in}} + d_{\text{out}}) $$ 其中$d_{\text{in}}$和$d_{\text{out}}$是原始层的输入/输出维度。例如在Llama2-7B中设置$r=8$时，仅需训练约420万参数[^1]。 - **缩放系数（Alpha, $\alpha$）**：控制低秩矩阵对原始权重的影响程度。通常设置为$\alpha = 2r$可获得较好效果[^2]。 - **目标层（target_modules）**：指定应用LoRA的神经网络层。常见选择包括： ```python # Hugging Face PEFT示例 target_modules=["q_proj", "v_proj"] # 注意力层的查询/值矩阵 ``` #### 2. 参数设置建议 | 参数 | 推荐范围 | 说明 | |-------------|----------------|----------------------------------------------------------------------| | $r$ | 4-64 | 越大则拟合能力越强，但可能过拟合[^3] | | $\alpha$ | $r$的1-2倍 | 需与学习率配合调整 | | Dropout | 0.1-0.3 | 防止过拟合 | | 学习率 | 1e-4 - 3e-5 | 通常比全参数微调大10倍 | #### 3. 典型配置示例 ```python from peft import LoraConfig lora_config = LoraConfig( r=8, lora_alpha=16, target_modules=["q_proj", "v_proj"], lora_dropout=0.1, bias="none", task_type="CAUSAL_LM" ) ``` 此配置在Llama2-7B上仅需训练0.06%的参数，显存占用可降低至23.6GB（对比全参数微调的37.3GB）[^4]。 #### 4. 显存优化技巧 - 结合QLoRA使用4-bit量化，可将显存需求从28.87GB降至11.82GB - 设置梯度检查点（gradient_checkpointing=True） - 减小批处理大小（batch_size=2-4） #### 5. 实验建议 - 优先在$r=8$基准上进行消融实验 - 对关键层（如注意力机制）逐步扩展LoRA应用范围 - 使用学习率预热（warmup_ratio=0.03）避免初期震荡