LLM参数高效微调（LORA,QLORA）

灵海之森

已于 2024-03-24 15:51:15 修改

阅读量1.9k

点赞数 23

分类专栏： LLM 算法文章标签：人工智能

于 2024-03-24 15:47:39 首次发布

本文链接：https://blog.csdn.net/qq_43814415/article/details/136987836

版权

本文介绍了全量微调与高效微调的区别，重点讲解了参数高效微调的方法，如LoRA和QLoRA。LoRA通过低秩适应在不改变预训练模型权重的情况下，增加额外的低秩网络层进行微调。QLoRA则在4比特量化的预训练模型上应用LoRA，显著减少内存使用，适用于大型语言模型的微调。量化技术在模型压缩和性能保持方面也发挥了重要作用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1. 全量微调和高效微调

全量微调（Full Fine-tuning）

全量微调是深度学习中的一种常见做法，尤其是在处理大型预训练模型如BERT或GPT时。它涉及到在特定任务的数据集上调整预训练模型的所有参数。这意味着模型的每一层和每一个权重都会在微调过程中更新，以适应新的任务。虽然这种方法通常可以达到很好的性能，因为它允许模型在目标任务上进行充分优化，但它也有几个缺点。最主要的是，它需要大量的计算资源和时间，尤其是当模型非常大时。此外，它也更容易过拟合，尤其是在小数据集上。

高效微调（Efficient Fine-tuning）

与全量微调相对，高效微调是近年来发展起来的，旨在减少在特定任务上调整大型预训练模型所需的资源和时间。它通常涉及到只更新模型的一小部分参数，比如模型的最后几层或者只有顶层。一些高效微调的方法包括适应性微调（Adaptive
Fine-tuning），其中只有模型的输出层或与任务最相关的层被更新；或是梯度更新的变体，如差分学习率（Differential
Learning Rates）和冻结部分网络层（Freezing Layers）。

高效微调的优点是它大大减少了所需的计算资源，因此可以更快速地适应新任务。它还可以减轻过拟合的风险，因为保留了更多的原始预训练知识。不过，这种方法也可能限制模型在新任务上的最大表现潜力，因为它只调整了参数的一部分。

2.参数高效微调分类

增加额外参数 (A)

这类方法通过向模型中添加额外的可训练参数来适应新任务，而不改变原始预训练模型的参数。这种方法主要有两个小类：

类适配器（Adapter-like）方法：

在模型的每一层或特定层中插入小型网络结构，称为适配器（Adapters），它们拥有少量的可训练参数。

适配器可以学习到特定任务的特征表示，同时保留了预训练模型的大部分知识。

这种方法适用于要快速适应多个不同任务的场景，因为适配器可以独立训练且交换。

软提示（Soft prompts）：

软提示是向模型输入添加可训练的标记（tokens