大模型的参数高效微调（PEFT），LoRA微调以及其它

玩转AI大模型

于 2024-09-02 11:13:12 发布

阅读量483

点赞数 6

文章标签：人工智能深度学习机器学习语言模型 llama 算法神经网络

本文链接：https://blog.csdn.net/2401_85375298/article/details/141815007

版权

1. Fine-tuning

相较于基础大模型动辄万卡的代价，微调可能是普通个人或者企业少数能够接受的后训练大模型(post-training)的方式。

微调是指在一个预训练模型(pre-training)的基础上，通过少量的数据和计算资源，对模型进行进一步训练，以适应特定的任务或者数据集。

微调分为两种类型：全参微调（full fine-tuning）和参数高效微调（parameter efficient fine-tuning）。

全参微调：在全参微调中，整个模型的参数都会被更新，这种方法通常需要大量的数据和计算资源，以及较长的训练时间。

2. PEFT

参数高效微调（Parameter-Efficient Fine-Tuning，简称PEFT）是一种针对大型预训练模型（如大语言模型）的微调技术，它旨在减少训练参数的数量，从而降低计算和存储成本，同时保持或提升模型性能。

PEFT通过仅微调模型中的一小部分参数，而不是整个模型，来适应特定的下游任务。这种方法特别适用于硬件资源受限的情况，以及需要快速适配多种任务的大型模型。

PEFT有以下几种常见的方法：

选择参数子集：选择模型中的一小部分参数进行微调，通常是最后几层的参数；
重新参数化：使用低秩表示重新参数化模型权重，代表是LoRA方法；
添加参数：向模型添加可训练层或参数，代表为Prompt-tuning方法。

3. LoRA

LoRA（Low-Rank Adaptation）是一种参数高效微调技术，主要用于大型预训练模型的微调。它通过在模型的权重矩阵中引入低秩矩阵来实现对模型的调整，从而减少训练参数的数量，降低计算和存储成本。

LoRA的核心思想是，大型模型在进行特定任务的微调时，并不必要更新所有参数。通过仅对模型中一小部分参数进行微调，可以显著减少所需的计算资源，同时保持或提升模型性能。

在具体实现上，LoRA通过在预训练模型的权重矩阵上添加一个可学习的低秩矩阵，来实现对模型的微调。这个低秩矩阵由两个较小的矩阵相乘得到，这两个矩阵在训练过程中进行更新，而原始的预训练权重矩阵则保持不变。

Q-LoRA

QLoRA（Quantized LoRA）是LoRA的量化版本，通过量化技术进一步降低了模型的存储需求，使得大型模型可以在资源受限的设备上进行训练和部署。

Rank

矩阵的秩（rank）是矩阵中线性无关行或列的最大数目。在LoRA中，通过引入低秩矩阵，可以减少模型的参数数量，从而降低计算和存储成本。

经验上，4或者8的rank通常能够在保持模型性能的同时，显著减少参数数量。

LoRA target_modules 目标矩阵是Q？K？V？

为什么LoRA微调偏向于Q和V层而不是K层呢？这主要基于以下几个原因：

参数效率：Q层和V层直接影响到注意力权重的计算和最终的输出表示。通过调整Q层，可以影响模型选择关注的信息；而调整V层可以影响模型如何利用这些信息。因此，在这些层上进行微调可以更直接地改变模型的行为；
影响信息选择：K层主要影响信息的匹配方式，而在许多情况下，调整Q和V层已足够引导模型关注到更有用的信息上；
计算效率：虽然LoRA的目的是通过低秩更新提高参数效率，但在所有层上应用这种更新仍会增加额外的计算负担。选择对最终性能影响最大的层进行调整可以在增加最小计算成本的同时获得最大的性能提升；
实验和经验：实际应用中的经验和研究表明，在Q和V层上应用LoRA微调通常能够有效改善特定任务的性能。这可能是因为这些层在模型中扮演着关键角色，对输出的影响较大；

此外，对于不同模型的LoRA实现，target_modules参数可以根据模型的架构进行设置。例如，对于T5和MT5模型，默认的target_modules是[“q”, “v”]，而对于BART和GPT-2模型，则是[“q_proj”, “v_proj”]。

如果使用的模型不在实现定义的大语言模型列表内，则需要手动指定target_modules。可以通过打印模型的可学习参数名来找到可学习的参数

4. Prompt-tuning

Prompt Tuning是一种针对大型预训练模型的微调技术，它通过在输入层引入任务特定的提示（prompt）来适配模型至特定任务，而不需要对整个模型参数进行更新。这种方法的核心优势在于参数效率，即它只需要训练少量的参数，从而降低了计算成本和训练时间。

Prompt Tuning的实现步骤主要包括：

定义任务特定的指令（prompt），这些指令作为输入的一部分，用于引导模型完成特定任务;
将指令与原始输入数据结合，形成新的输入;
利用新的输入对预训练模型进行微调，通常涉及对prompt tokens对应的词向量或由神经网络参数化的向量进行训练，而预训练模型的其他部分参数保持冻结.

5. 其它PEFT方法

除了最流行的LoRA和Prompt-tuning方法外，还有一些其他的参数高效微调方法，如： P-tuning和Perfix-tuning等。但我也没有细看，工作中也没有用过，所以不做详细介绍。但可以参考Huggingface的PEFT文档。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

😝有需要的小伙伴，可以Vx扫描下方二维码免费领取🆓

👉1.大模型入门学习思维导图👈

要学习一门新的技术，作为新手一定要先学习成长路线图，方向不对，努力白费。

对于从来没有接触过AI大模型的同学，我们帮你准备了详细的学习成长路线图&学习规划。可以说是最科学最系统的学习路线，大家跟着这个大的方向学习准没问题。（全套教程文末领取哈）
在这里插入图片描述

👉2.AGI大模型配套视频👈

很多朋友都不喜欢晦涩的文字，我也为大家准备了视频教程，每个章节都是当前板块的精华浓缩。

在这里插入图片描述

👉3.大模型实际应用报告合集👈

这套包含640份报告的合集，涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师，还是对AI大模型感兴趣的爱好者，这套报告合集都将为您提供宝贵的信息和启示。（全套教程文末领取哈）

在这里插入图片描述

👉4.大模型落地应用案例PPT👈

光学理论是没用的，要学会跟着一起做，要动手实操，才能将自己的所学运用到实际当中去，这时候可以搞点实战案例来学习。（全套教程文末领取哈）

在这里插入图片描述

👉5.大模型经典学习电子书👈

随着人工智能技术的飞速发展，AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型，如GPT-3、BERT、XLNet等，以其强大的语言理解和生成能力，正在改变我们对人工智能的认识。那以下这些PDF籍就是非常不错的学习资源。

在这里插入图片描述

👉6.大模型面试题&答案👈

截至目前大模型已经超过200个，在大模型纵横的时代，不仅大模型技术越来越卷，就连大模型相关的岗位和面试也开始越来越卷了。为了让大家更容易上车大模型算法赛道，我总结了大模型常考的面试题。

在这里插入图片描述

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【`保证100%免费`】

😝有需要的小伙伴，可以Vx扫描下方二维码免费领取🆓

玩转AI大模型

关注

6
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
大模型的参数高效微调（PEFT），LoRA微调以及其它

相较于基础大模型动辄万卡的代价，微调可能是普通个人或者企业少数能够接受的后训练大模型(post-training)的方式。微调是指在一个预训练模型(pre-training)的基础上，通过少量的数据和计算资源，对模型进行进一步训练，以适应特定的任务或者数据集。微调分为两种类型：全参微调（full fine-tuning）和参数高效微调（parameter efficient fine-tuning）。
复制链接

扫一扫