从零掌握LoRA：大模型参数高效微调技术详解

最新推荐文章于 2025-12-16 18:22:05 发布

原创最新推荐文章于 2025-12-16 18:22:05 发布 · 999 阅读

22 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #ai #大模型 #langchain #Agent #LLM #LoRA

部署运行你感兴趣的模型镜像

本文详细介绍了LoRA（Low-Rank Adaptation）参数高效微调技术，通过引入小尺寸可学习矩阵A和B来修改大型预训练模型权重W，显著减少内存和计算开销，同时保持与全参数微调相当的性能。文章解释了LoRA的数学原理、参数初始化方法（B初始化为零而A不能的原因），并指出其能将检查点大小减少约10,000倍，训练速度提高25%，且不引入推理延迟，是微调大模型的理想选择。

前排提示，文末有大模型AGI-CSDN独家资料包哦！

在我们正式讨论参数高效微调（Parameter-Efficient Fine-Tuning，PEFT）技术之前，我们先回顾一下如何进行全参数微调（full fine-tuning），这将有助于我们理解 Lora 被发明的动机。

Full Fine-Tuning

回顾神经网络的结构，绝大部分都是矩阵计算。考虑预训练模型中某些随机层的当前权重W 的维度是d*k，我们希望在某一个数据集上对其进行微调。

在微调过程中，我们首先需要得到权重 W更新的变化量，即ΔW

为了简单起见，我们可以考虑ΔW作为在新数据集上运行梯度下降后获得的更新：

在推理过程中，我们可以计算输入样本x的预测值如下：

事实上，在所有模型微调迭代中，W可以保持静态，并且所有使用梯度计算的权重更新ΔW都可以合并到 W。在 LLM 中，矩阵W往往非常庞大，ΔW和 W 具有同样的尺寸，这将带来很大的内存和计算开销。因此，我们必须引入一些巧妙的技巧来操纵ΔW，这样我们即可以实现微调目标，同时确保不消耗高内存。

LoRA: Low-Rank Adaptation

LoRA 的核心思想是与基础模型（例如完整的 GPT-3）相比，训练非常少的参数 ，同时保留我们通过全模型微调所获得的性能。从数学上讲，自适应(Adaptation)是通过使用以下公式修改ΔW，从而改变Transformer层中的权重 W：

这里，W是基础模型的参数，A和 B 是可学习的参数。如上图所示，矩阵A 和 B 的维度与 W相比，尺寸要小得多西，导致可训练参数的数量显著减少。尽管这种低秩更新很简单，但它被证明在保留 LLM 的细微功能的同时，引入针对新任务或数据集所需的调整方面非常有效。

这样，如果有很多用户希望微调 LLM 模型（例如来自 OpenAI），OpenAI 只需存储上述两个矩阵A和B 。这对于引入此功能的所在层的参数来说，其尺寸非常小。然而，原始权重矩阵W 在所有微调版本中并没有被改变，即可以在所有用户之间共享的版本。

根据 LoRA 的原始论文，他们将检查点大小减少了大约 10,000 倍 ——从 350GB 减少到仅 35MB。此外，他们还观察到，与完全微调（Full Fine-Tuning）相比，GPT-3 175B 模型的训练速度提高了 25%，这是非常明显的，因为我们没有计算绝大多数参数的梯度。另一个关键优势是它不会引入推理延迟。这是因为它采用了简单的线性设计，使我们能够合并可训练矩阵（A和 B) 与固定的参数矩阵 W，因此人们可以按照与平时完全相同的方式进行推理。

LoRA 的一个很酷的点是超参数r可以比相应权重矩阵的维度小几个数量级。例如，在结果表中，比较r=1与其他等级一样：

在大多数情况下，我们注意到r=1几乎与任何其他更高级别的表现一样好。换句话说，这意味着A和B可以是一个简单的行和列矩阵。

LoRA参数初始化

LoRA矩阵初始化：简单来说，下采样矩阵A用随机高斯分布初始化，而上采样矩阵B初始化为零。此初始化确保初始矩阵ΔW在训练开始时仍然是零矩阵，因此对预训练参数没有影响。

为什么B可以初始化为全零？

如果B初始化为全零，那么在开始时

这意味着模型的权重尚未改变，因此它仍然是原始模型。随着训练的进行，B将逐渐更新，并最终学习所需的权重调整。B的梯度是：

因此，初始化B为零不会妨碍训练，因为它仍然可以接收非零梯度。

为什么不能将 A 初始化为全零？

如果A初始化为全零，则A 的梯度

将为零，因为此时B的初始化为零，所以A不会更新，此时 B 的梯度也是 0，因此 B 也不会更新。这会阻止模型通过训练学习进行有意义的调整。这篇论文The Impact of Initialization on LoRA Finetuning Dynamics对 A 和 B 两种初始化方法进行了比较实验：