PEFT中的主流微调方法(LORA、QLoRA、Adapter Tuning、Prefix Tuning、Prompt Tuning、P-Tuning及P-Tuning v2)

lichunericli

已于 2024-03-14 17:08:37 修改

阅读量2.1k

点赞数 30

文章标签：人工智能机器学习深度学习

于 2024-03-14 16:52:48 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/lichunericli/article/details/136715220

版权

本文详细介绍了PEFT（Parameter-Efficient Fine-Tuning）中的主流微调技术，包括LoRA、QLoRA、Adapter Tuning、Prefix Tuning等，这些方法用于在预训练的大模型上进行有效调整，以适应特定的NLP任务，降低微调成本并提高性能。文章阐述了各方法的基本原理、操作过程及其在Transformer架构中的作用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

迁移学习

微调实际上是迁移学习的一个实例，其中预训练的模型（通常在大型通用数据集上训练）被用作特定任务的起点。

迁移学习（Transfer Learning）是一种机器学习方法，它利用已经在一个任务上学到的知识，来帮助提高另一个相关任务的学习效果。简单来说，迁移学习就是将已有模型（通常是在大型数据集上训练得到的）应用于新的但相关的任务上，以此来改善新任务的性能，尤其是在新任务的数据量相对较少的情况下。

迁移学习的核心思想是，不同但相关的任务之间共享一些有用的信息或特征，因此在一个任务上学到的知识可以迁移到另一个任务上。例如，一个在图片分类任务上学到的模型，可能对新的图片分类任务也有帮助，因为图片识别中的某些特征（如边缘、纹理等）在不同的分类任务中是通用的。

LLM训练的两个阶段

Step 1.预训练阶段

大模型首先在大量的无标签数据上进行训练，预训练的最终目的是让模型学习到语言的统计规律和一般知识。在这个过程中模型能够学习到词语的语义、句子的语法结构、以及文本的一般知识和上下文信息。

需要注意的是，预训练本质上是一个无监督学习过程；得到预训练模型(Pretrained Model)，也被称为基座模型(Base Model)，模型具备通用的预测能力。如GLM-130B模型、OpenAI的A、B、C、D四大模型，都是基座模型。

Step 2.微调阶段

预训练好的模型然后在特定任务的数据上进行进一步的训练。这个过程通常涉及对模型的权重进行微小的调整，以使其更好地适应特定的任务;得到最终能力各异的模型，例如 GPT 系列、 ChatGLM-6B等模型;

大模型微调

大模型微调指的是“喂”给模型更多信息，对模型的特定功能进行 “调教”，即通过输入特定领域的数据集，让其学习这个领域的知识，从而让大模型能够更好的完成特定领域的NLP任务，例如情感分析、命名实体识别、文本分类、对话聊天等。

微调包括：大模型全量微调（Fine-tuning）、PEFT（Parameter-Efficient Fine-Tuning）

大模型全量微调（Fine-tuning）通过在预训练的大型模型基础上调整所有层和参数，使其适应特定任务。这一过程使用较小的学习率和特定任务的数据进行，可以充分利用预训练模型的通用特征，但可能需要更多的计算资源。

PEFT（Parameter-Efficient Fine-Tuning ）技术旨在通过最小化微调参数的数量和计算复杂度，来提高预训练模型在新任务上的性能，从而缓解大型预训练模型的训练成本。

PEFT包括LORA、QLoRA、Adapter Tuning、Prefix Tuning、Prompt Tuning、P-Tuning及P-Tuning v2等。

下图示例了7个主流微调方法在Transformer网络架构的作用位置和简要说明。

1、LoRA

LoRA是一种用于微调大型预训练语言模型（如GPT-3或BERT）的方法。它的核心思想是在模型的关键层中

最低0.47元/天解锁文章

博客等级

码龄9年

413
原创

1万+
点赞

9836
收藏

6920
粉丝

关注

私信

热门文章

分类专栏

传统文化-易经 17篇
传统文化 1篇
数据库 10篇
经济学 2篇
沟通 1篇
人工智能 8篇
Java 2篇
缓存 4篇
架构 1篇
搜索引擎 4篇
消息队列 2篇
微服务 1篇
注意事项 1篇
LLM 应用实现总结 8篇
GIT 1篇
IM即时通讯 1篇

最新评论

记一次港交所面试
liulicsu: 是纯英文面试吗
拆解 Transformer 的训练过程
tjuwzan: 最近在看Transformer的知识，的确有些地方有点没搞明白，想先请教几个问题： 1. 本篇主要讲Transformer的训练环境，图上模型最右侧，也就是Decoder的下面，是Output Embedding, 最上面是Output，他们之间有关系吗？ 2. 训练，如果是传统的机器学习或者深度学习，如果是Supervised Learning的话，应该有输入，ground truth，以及loss function，但Transformer很少有人提这个，那么Transformer的学习过程是什么？Loss Function是什么？ 3. 还是训练问题，普通深度学习模型学习的大概是W and B，Transformer的学习是Wq, Wk, Wv吗？是如何学习的呢？尤其在第7节里描述：例如，对于计算 Query 矩阵，权重矩阵的行数必须与转置矩阵的列数相同，而权重矩阵的列数可以任意；例如，我们假设权重矩阵有 4 列。权重矩阵中的值介于 0 和 1 之间，随机初始化，当 Transformer 开始学习语料的含义时，这些值会更新。文中提到的三句话，是不是语料？咱们的例子中是不是就是用这三句话作为训练例子呢？ 4. 依然是文章中描述的，把when you play the game of thrones, you win or you die. 这句话有两个部分，前面部分作为输入，后面部分作为输出，那么第一句，I drink and I know things，这里面只有一句，怎么分输入和输出呢？ 5. 掩码的作用没太理解，可否解释一下呢？很多都说是为了让模型只参考前面，而不看后面，这句话还是没有真正理解。程序员出身，一直是按照程序员思维想弄清楚每个细节，但是NLP基础有点薄弱，理解一些思想有点难度。多谢解答
Java内存模型（JMM）与Volatile关键字底层原理
Yunwushenyanying: 讲的太全面了！非常有帮助
记录些MySQL题集（4）
CSDN-Ada助手: 恭喜你这篇博客进入【CSDN每天值得看】榜单，全部的排名请看 https://bbs.csdn.net/topics/619168846。
DSPy入门：告别指令提示，拥抱编程之旅！
LK12mufc: 可以理解成，langchain和llamaindex需要自己写prompt。DSPY自动写prompt？？如果是这样，最终到LLM那里还是一样的呀

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。