LoRA (Low-Rank Adaptation) 简介
LoRA(低秩适应)是一种高效微调大模型的技术,通过引入低秩矩阵分解减少可训练参数数量,显著降低计算资源需求,同时保持模型性能。
参考文献
- LORA https://arxiv.org/abs/2106.09685
- QLora https://arxiv.org/abs/2305.14314
- Droa https://arxiv.org/abs/2402.09353
- rsLora 大模型LoRA微调的缩放因子因小失大了吗
- LoRAMOE LoRA遇上MoE,大模型再也不会健忘了
核心原理
LoRA假设模型权重矩阵的更新(ΔW)可以用低秩矩阵近似表示:
Δ
W
=
B
A
\Delta W = BA
ΔW=BA
其中,
B
∈
R
d
×
r
B \in \mathbb{R}^{d \times r}
B∈Rd×r 和
A
∈
R
r
×
k
A \in \mathbb{R}^{r \times k}
A∈Rr×k 为低秩矩阵(
r
≪
min
(
d
,
k
)
r \ll \min(d,k)
r≪min(d,k))。原始权重
W
W
W 保持不变,仅训练
A
A
A 和
B
B
B,前向传播时叠加低秩更新:
h
=
W
0
x
+
(
a
l
p
h
a
/
r
)
∗
B
(
A
x
)
h = W_0x + (alpha / r) * B(Ax)
h=W0x+(alpha/r)∗B(Ax)
注意 alpha 是超参,r 为 rank,实际使用过程中 alpha 会默认等于 r。
技术优势
- 参数高效:仅需微调少量参数(通常为原参数的0.1%~1%)。
- 内存友好:无需存储完整梯度,适配器矩阵可动态加载。
- 模块化:不同任务可共享基础模型,仅切换适配器模块。
实现步骤
- 选择目标层:通常应用于Transformer的注意力矩阵(Q/K/V)或全连接层。
- 初始化低秩矩阵:矩阵 A A A 用随机高斯初始化, B B B 初始化为零矩阵。
- 冻结原始权重:仅训练 B A BA BA 部分,原模型权重 W W W 保持固定。
- 合并权重(推理时):将 W + B A W + BA W+BA 合并为单一矩阵提升推理速度。
代码示例(PyTorch)
import torch
import torch.nn as nn
import math
class LoRALayer(nn.Module):
"""
一个 LoRA (Low-Rank Adaptation) 层的实现。
这个层包装了一个现有的线性层,并添加了低秩适应。
"""
def __init__(
self,
original_layer: nn.Linear,
rank: int,
alpha: int,
):
"""
初始化 LoRA 层。
Args:
original_layer (nn.Linear): 要被 LoRA 包装的原始线性层。
rank (int): LoRA 矩阵的秩。
alpha (int): LoRA 适应的缩放因子。
"""
super().__init__()
self.in_features = original_layer.in_features
self.out_features = original_layer.out_features
self.rank = rank
self.alpha = alpha
# 冻结原始权重
self.original_layer = original_layer
self.original_layer.weight.requires_grad = False
# 创建低秩矩阵 A 和 B
self.lora_A = nn.Parameter(torch.zeros(rank, self.in_features))
self.lora_B = nn.Parameter(torch.zeros(self.out_features, rank))
# 计算缩放因子
self.scaling = self.alpha / self.rank
# 初始化权重
self.reset_parameters()
def reset_parameters(self):
"""
初始化 LoRA 矩阵的权重。
A 采用 Kaiming Uniform 初始化,B 初始化为零。
这确保了在训练开始时,LoRA 的改动量为零。
"""
nn.init.kaiming_uniform_(self.lora_A, a=math.sqrt(5))
nn.init.zeros_(self.lora_B)
def forward(self, x: torch.Tensor) -> torch.Tensor:
"""
前向传播。
输出 = 原始层输出 + LoRA调整量
LoRA调整量 = (B * A) * x * scaling
"""
# 原始层的前向传播
original_output = self.original_layer(x)
# LoRA 旁路的前向传播
lora_output = self.lora_B @ (self.lora_A @ x.transpose(-2, -1))
lora_output = lora_output.transpose(-2, -1) * self.scaling
return original_output + lora_output
or
class LoRALayer(nn.Module):
def __init__(self, linear_layer: nn.Linear, r: int, alpha: float):
super().__init__()
self.orig = linear_layer # 原始线性层(冻结其参数)
in_dim = linear_layer.in_features
out_dim = linear_layer.out_features
# 定义可训练低秩矩阵A和B
self.lora_down = nn.Linear(in_dim, r, bias=False) # A: 降维
self.lora_up = nn.Linear(r, out_dim, bias=False) # B: 升维
# 初始化:A为随机小权重,B为零
nn.init.kaiming_uniform_(self.lora_down.weight, a=math.sqrt(5))
nn.init.zeros_(self.lora_up.weight)
# LoRA缩放系数
self.scaling = alpha / r
def forward(self, x):
# 冻结的原层输出 + LoRA增量输出
return self.orig(x) + self.scaling * self.lora_up(self.lora_down(x))
应用场景
- 多任务适配:为不同任务训练独立的LoRA模块。
- 资源受限环境:在消费级GPU上微调大模型(如LLaMA、GPT-3)。
- 快速实验:减少调参时的计算开销。
扩展变体
- QLoRA:结合4位量化进一步降低显存占用。
- DoRA:将权重更新分解为方向和幅度两部分提升效果。
注意事项
- 秩的选择:秩 r r r 过小可能欠拟合,过大则失去效率优势(常用4~32)。
- 层选择策略:仅微调关键层(如注意力层)通常比全模型微调更高效。
通过LoRA技术,用户能够以极低成本实现大模型定制化,平衡性能与资源消耗。
模拟面试
面试官:你好,我们今天来聊一聊LoRA。这是一个非常关键的LLM微调技术。
那么,我们就从最基本的问题开始吧。
问题 1:请用你自己的话解释一下,LoRA是什么?它试图解决什么核心问题?相比于传统的全参数微调(Full Fine-Tuning),它的根本区别在哪里
1. 核心解决的问题:
它主要为了解决大语言模型(LLM)在适应下游特定任务时,**全参数微调(Full Fine-Tuning)**带来的三大挑战:
- 计算成本高:微调整个模型的几十亿甚至上百亿参数,需要巨大的GPU显存来存储模型权重、梯度和优化器状态。
- 存储成本高:每微调一个任务,就需要保存一份完整的模型副本,对于动辄几十GB的模型来说,存储开销极大。
- 灾难性遗忘:在微调过程中,模型可能会过度拟合新任务的数据,从而忘记在预训练阶段学到的通用知识。
2. 与全参数微调的根本区别:
这个区别在于假设和实现。
- 全参数微调的假设是:模型适应新任务需要对所有权重 W 进行调整。它的更新是 W’ = W + ΔW,其中 ΔW 是一个与 W 同等大小(即满秩)的更新量。
- LoRA的核心假设是:模型权重在微调过程中的变化量 ΔW 是低秩(low-rank)的。也就是说,这个巨大的权重矩阵的改动,可以用两个小得多的矩阵相乘来近似模拟。
基于这个假设,LoRA的实现是:
冻结原始的、预训练好的权重 W。
在旁边注入两个可训练的、低秩的矩阵 A 和 B(我们称之为“分解矩阵”或“适配器”)。训练时,只更新 A 和 B 的参数,用它们的乘积 BA 来模拟 ΔW。
问题 2:在LoRA中,这个增量 ΔW 是如何通过低秩矩阵A和B来表示的?请描述一下这个过程,以及在模型的前向传播(forward pass)中,它是如何与原始的权重矩阵W结合的?最好能用公式或伪代码来辅助说明。
假设原始的权重矩阵 W 的维度是 d_out × d_in(例如,一个全连接层)。
低秩分解 (Low-Rank Decomposition):
ΔW 被分解为两个矩阵 B 和 A 的乘积:
A:一个维度为 r × d_in 的矩阵。
B:一个维度为 d_out × r 的矩阵。
这里的 r 就是“秩 (rank)”,它是一个远小于 d_in 和 d_out 的超参数 (e.g., r=8, 16, 64)。
所以,ΔW = B @ A,其维度是 (d_out × r) @ (r × d_in) = d_out × d_in,与 W 的维度完全相同。
前向传播 (Forward Pass):
为了计算效率,我们不会先计算 A和B的乘积(因为那会得到一个大矩阵),而是改变运算顺序:
h = W_0x + BAx = W_0x + B(Ax)
W_0 是原始的、被冻结的权重。
x 是输入向量,维度为 d_in。
计算过程:
先计算 Ax,得到一个维度为 r 的小向量。
再计算 B(Ax),得到一个维度为 d_out 的向量。
最后将 W_0x 和 B(Ax) 的结果相加。
这样,我们只是增加了两个小矩阵的乘法,计算开销非常小。
两个被忽略但至关重要的细节:
初始化 (Initialization): 矩阵 A 通常用随机高斯分布初始化,而矩阵 B 则初始化为全零。这是一个非常巧妙的设计。为什么?因为在训练开始时,B是零,所以 BA 也是零矩阵。这意味着 h = W_0x + 0,整个LoRA模块在初始时对模型的输出没有任何影响。这保证了微调是从原始预训练模型的稳定状态平滑开始的,避免了训练初期的剧烈波动。
缩放因子 (Scaling Factor): 完整的LoRA公式其实是 h = W_0x + (alpha / r) * B(Ax)。这里有一个超参数 alpha(通常设为与r相同,这样 alpha/r=1)。这个缩放因子的作用是,当你改变秩 r 时,能够稳定更新的幅度,使得调整超参数 r 变得不那么敏感。【 Note:rsLORA 提出使用 r \sqrt{r} r, 大模型LoRA微调的缩放因子因小失大了吗,不敏感本身也是不对的,按照常理因该是 r 越大,效果越好,因为越接近全量微调。】
总结一下,LoRA通过冻结大矩阵、旁路添加低秩分解矩阵、巧妙初始化这三步,实现了高效且稳定的微调。
问题 3:根据原始LoRA论文的发现或你自己的经验,在Transformer模型中,LoRA通常被应用于哪些权重矩阵?为什么选择这些矩阵进行适配会特别有效?
FFN层是参数的大头,并且被认为存储了大量的世界知识和事实记忆。但正因如此,直接修改它们可能不是最高效或最安全的。
-
LoRA论文的核心发现:
论文发现,仅仅对自注意力(Self-Attention)模块中的权重矩阵进行适配,就足以取得非常有竞争力的结果。在很多情况下,只对**查询(Q)和值(V)**矩阵应用LoRA就已经足够了。 -
为什么是注意力矩阵,而不是FFN?
我们可以从它们在Transformer中的角色来理解:
注意力矩阵 (Q, K, V, O) 的作用:它们是信息处理和流动的控制器。它们决定了在生成下一个token时,模型应该“关注”输入序列中的哪些部分。Q和K的点积决定了注意力分数(attention scores),而V则提供了要被聚合的信息内容。
FFN层的作用:它们更像是知识库或记忆库。在注意力机制提取并组合了相关信息后,FFN层对这些信息进行非线性变换和加工,可以被看作是模型在“思考”和“回忆”相关的知识。
核心洞察在于:当我们将一个通用大模型适配到一个新任务(比如从通用对话模型适配到“法律文书写作助手”)时,模型最需要改变的不是它所拥有的知识本身(FFN层),而是如何根据新的指令和上下文来组织、提取和运用这些知识(注意力层)。
打个比方:
把FFN想象成一个巨大的图书馆,里面有关于全世界的知识。把注意力机制想象成一位图书管理员。
全参数微调:相当于重写图书馆里的大量书籍,成本极高。
**LoRA应用于FFN:**相当于给图书馆里的一些书籍贴上新的注释,有一定效果,但可能破坏原文。
**LoRA应用于注意力层:**相当于给图书管理员一套新的、高效的工作指令(“当用户问法律问题时,优先去B区的法律专著里查找,并按照C格式总结”)。管理员(注意力机制)变得更适应新任务,而图书馆(FFN)里的知识基本保持不变。
- 实践中的策略:
最高性价比:只在Q和V上应用LoRA。
更强性能:在Q, K, V, O所有四个注意力矩阵上应用LoRA。
追求极致性能:在所有线性层(包括注意力和FFN)上都应用LoRA。但这会增加参数量,收益不一定是线性的。【但是这样 finetune可能还是会引起灾难性遗忘?LoRA遇上MoE,大模型再也不会健忘了】
所以,结论是,通过调整注意力机制这个“信息流动的阀门”,LoRA用最小的代价实现了对模型行为的有效引导。
问题 4:当模型微调完成,进入到推理(inference)阶段时,我们应该如何处理这个额外的LoRA权重?它会给模型的推理速度带来额外的延迟(latency)吗?为什么?
【简单来说,lora 权重可以直接离线加载到原始模型上】
LoRA权重可以被“吸收”或“合并”(merge)到原始模型权重中去。
- 为什么可以合并?
回顾一下前向传播的公式:
h = W_0x + (alpha / r) * BAx
由于 W_0, B, A, alpha, 和 r 在推理时都是固定的常量,我们可以把它们合并成一个新的权重矩阵 W’:
W’ = W_0 + (alpha / r) * B @ A
这个 W’ 矩阵的维度和原始的 W_0 完全一样。
- 推理时的操作流程:
一旦微调完成,我们就不再需要 B 和 A 两个独立的矩阵了。我们可以执行一个一次性的离线操作:
加载原始的、冻结的权重 W_0。
加载我们训练好的LoRA权重 B 和 A。
计算增量 ΔW = (alpha / r) * B @ A。
计算出最终的合并后权重 W’ = W_0 + ΔW。
在模型中,用新的 W’ 直接替换掉原来的 W_0。
保存这个合并后的模型。
- 合并带来的好处:
零推理延迟:部署时使用的模型,其架构与原始模型一模一样。它的前向计算就是 h = W’x,没有任何额外的矩阵乘法或加法。因此,它的推理速度和原始的基础模型完全相同。
部署简单:你不需要维护一套特殊的代码来加载LoRA适配器。你可以像部署任何标准模型一样,直接部署这个合并后的模型。
结论:
LoRA的优雅之处在于,它在训练时通过旁路结构实现了参数高效,而在推理时又可以通过权重合并,恢复成原始模型的简洁架构,从而不引入任何性能开销。
这个特性使得LoRA在生产环境中极具吸引力。你可以为100个不同的任务训练100个轻量的LoRA适配器,当需要为某个任务部署一个专用模型时,只需将对应的适配器与基础模型合并即可。
问题 5:请简单介绍一下你知道的其他几种PEFT方法,比如 Adapter Tuning, Prefix-Tuning, 或者 Prompt Tuning,并简要对比一下它们和LoRA在“修改模型的方式”和“对模型结构的影响”上的主要区别。
-
Prompt Tuning (提示调优)
核心思想:完全不改变模型的任何权重。我们只为每个任务学习一个小的、特定的“软提示”(soft prompt)。
工作方式:
想象一下你的输入句子是 “Translate to French: I love dogs.”
在Prompt Tuning中,我们把前面那段指令 “Translate to French:” 替换成一组可学习的、连续的向量(我们称之为“虚拟token”或“软提示”),比如 [P1, P2, P3, P4]。
模型最终的输入就变成了 [P1, P2, P3, P4, “I”, “love”, “dogs”, “.”]。
在微调时,整个大模型被完全冻结,我们只通过梯度下降来更新 P1 到 P4 这几个向量的数值。
类比:就像你找到了与一个固执的专家(冻结的LLM)沟通的“魔法咒语”。你不能改变专家的大脑,但你可以学会用什么样的开场白(软提示)才能让他给你想要的答案。
特点:参数量极小(可能只有几千个),但由于它只在输入层起作用,对模型行为的控制力相对较弱。 -
Prefix-Tuning (前缀调优)
核心思想:这是Prompt Tuning的加强版。它同样不改变模型权重,但它的影响力更深远。
工作方式:
它不是在输入层加虚拟token,而是在Transformer的每一层都注入一个可学习的“前缀”(prefix)。
具体来说,在每一层的自注意力模块计算Attention(Q, K, V)时,它把可学习的前缀向量拼接到原始的K(键)和V(值)上。
K_new = [Prefix_K, K_original]
V_new = [Prefix_V, V_original]
在微调时,整个模型依然被冻结,我们只训练这些加在每一层的前缀向量。
类比:如果说Prompt Tuning是教给专家一个开场白,那么Prefix-Tuning就像是给专家在每一步思考时(每一层)都提供了一张小“备忘录”(前缀),告诉他“在处理这个任务时,要额外考虑这些虚拟信息”。
特点:比Prompt Tuning参数多一些,但效果通常更好,因为它在模型的每一层都施加了影响
| 方法 | 修改模型的方式 | 对结构/推理延迟的影响 | 类比 |
|---|---|---|---|
| Adapter Tuning | 串行插入:在Transformer块中插入新的、小型的“适配器”网络层。 | 改变了模型深度:前向传播必须经过这些新层,因此会引入少量推理延迟。 | 给大楼加盖了几个小隔间,进去必须经过它们。 |
| Prompt/Prefix Tuning | 输入端修改:不改变模型权重,只在输入数据或中间层状态中添加可训练的虚拟向量。 | 模型结构完全不变。但会轻微增加计算量,因为有效序列长度变长了,会引入极小的推理延迟。 | 给一个软件写了一份完美的使用说明书,软件本身没变。 |
| LoRA | 并行注入:在现有的权重矩阵旁边,并行添加一个低秩分解矩阵,输出结果相加。 | 模型结构不变(宽度和深度都没变)。最关键的是,训练后可以合并权重,实现零推理延迟。 | 给高速公路旁边修了一条临时的并行小路,最后可以把小路铺平,并入主路。 |
核心区别总结:
Adapter是串行的,改变了计算路径的深度。
Prompt/Prefix-Tuning是输入侧的,改变了模型的输入。
LoRA是并行的,改变了权重矩阵的计算方式,但可以被吸收,不改变最终结构。
问题 6:根据你的理解,LoRA有什么潜在的缺点或不适用的场景吗?例如,选择秩 r 会有什么挑战?在所有任务上它都比全量微调效果好吗?
- 不适用于注入大量新知识
LoRA的根本假设——“模型权重更新是低秩的”。
为什么? LoRA被设计用来适配(Adapt)模型,而不是对模型进行大规模的重塑(Reshape)。适配意味着调整模型如何运用它已有的知识来适应新的任务风格或格式。而注入全新的、广泛的知识领域(比如让一个通用模型学习完整的医学知识体系)通常需要对模型权重进行高秩的、复杂的修改,尤其是对存储知识的FFN层。
场景举例:
适用LoRA:让LLaMA模型学会用“小红书风格”回答问题。这主要是风格的转变,不需要新知识。
不适用LoRA:想让一个2022年训练的LLM,学会2023年发生的所有世界大事。这种大范围、事实性的知识更新,更适合用**持续预训练(Continual Pre-training)**或者更高参数的微调方法。
结论:当任务主要是风格迁移、指令遵循、特定格式输出时,LoRA非常有效。当任务是大规模知识注入或事实纠正时,LoRA可能力不从心,效果不如全量微调。
-
秩 r 的选择是一个挑战
r 不是越大越好。太小的 r 可能无法捕获任务所需的变化,导致欠拟合。太大的 r 不仅会增加参数量,还可能引入噪声,导致过拟合,甚至损害性能,同时也背离了“低秩”的初衷。选择合适的 r 通常需要经验和实验。正如我们前面讨论的 RS-LoRA,r 的选择还和学习率等其他超参数紧密耦合,增加了调优的复杂性。 -
性能极限可能低于全量微调
在拥有足够计算资源和数据,且追求极致性能的场景下,全量微调(Full Fine-Tuning)通常仍然是性能的上限(SOTA)。LoRA的目标是在极小成本下,达到接近全量微调90%以上的效果,实现性价比的最大化,但它不保证能超越全量微调。
问题 7: LoRA 与 ControlNet 的区别
| 特性 | LoRA | ControlNet |
|---|---|---|
| 目标 | 改变模型的内在风格/概念。例如,让模型学会画“梵高风格”的画,或学会生成某个特定角色的形象。 | 在单次生成中,精确控制输出的空间结构/姿态。例如,让模型根据一张骨架图生成一个同样姿势的人。 |
| 作用域 | 模型级别。训练完成后,你得到了一个“新风格”的模型。 | 推理级别。在每次生成时,你提供一个“控制图”作为额外输入。 |
| 实现机制 | 在现有权重矩阵(如Attention层)旁注入低秩矩阵,修改权重。 | 复制模型的编码器部分,训练这个副本以理解控制信号,然后将其输出通过“零卷积”注入到原始模型的解码器各层中。 |
| 是否改变模型 | 是的,它产生了一个微调后的模型。虽然参数量小,但模型行为已永久改变(直到你换一个LoRA)。 | 否,它不改变原始的预训练模型。它是一个外挂的、并行的“控制模块”。 |
| 类比 | “风格培训”:你送一个画家去学习印象派,他的画风从此就带上了印象派的特点。 | “使用模板”:你给同一个画家一张描好轮廓的画纸,让他在这张纸上作画。画家的技巧没变,但这次的输出被模板限制了。 |
问题 8(开放性场景题):假设你所在的公司有一个基于LLaMA-3 8B构建的通用客服对话模型。现在,业务方希望为三个不同的垂直领域(A-金融产品咨询,B-电商售后支持,C-技术故障排查)分别推出专门的优化版本。预算有限,要求快速上线,且未来可能扩展到十几个领域。你会如何设计技术方案?请阐述你的选择、具体步骤以及这样做的理由。
- 整体战略:中心化基础模型 + 分散化适配器 (Centralized Base Model + Decentralized Adapters)
选择:我们采纳你提出的方案,以一个统一的、冻结的LLaMA-3 8B模型作为基础。对于三个(未来十几个)垂直领域,我们不创建完整的模型副本,而是为每个领域单独训练一个轻量级的LoRA适配器。
理由:
成本效益:我们只需在GPU内存中保留一个8B模型,极大地节省了训练和推理的硬件成本。训练LoRA适配器比全量微调快几个数量级。
快速迭代:为新领域训练一个适配器只需数小时,而不是数天。上线新业务变得非常敏捷。
存储高效:基础模型约16GB,而每个LoRA适配器只有几十MB。存储100个领域的适配器也只占用几个GB。
风险隔离:一个领域的适配器训练失败或效果不佳,不会影响到其他领域的模型。
2. 具体实施步骤
Step 1: 数据准备与标准化
为金融(A)、电商(B)、技术©三个领域分别收集高质量的对话数据。
将所有数据统一处理成指令-遵循(Instruction-Following)格式,例如:
json
{
“instruction”: “你是一个专业的金融产品客服,请回答以下客户问题。”,
“input”: “请问你们的’稳健增长型’理财产品的预期年化收益率是多少?有什么风险?”,
“output”: “您好!我们的’稳健增长型’理财产品近一年的业绩比较基准为4.5%…”
}
建立一个标准化的数据清洗、去隐私化和格式化的数据处理流水线。
Step 2: 建立标准化的LoRA训练流水线
编写一个通用的训练脚本,它可以接受不同的数据集和超参数配置。
初步实验:选择一个领域(如电商B,数据可能最丰富),进行超参数搜索,重点关注:
LoRA秩 r:从一个小值开始,如8, 16, 32。
LoRA alpha:通常设为 r 的两倍或与 r 相同,作为起点。
目标模块 target_modules:根据我们的讨论,优先选择注意力层 [q_proj, v_proj],也可以扩展到 [q_proj, k_proj, v_proj, o_proj]。
学习率:这是微调中最重要的超参数之一。
评估:建立一个包含领域特定问题的测试集,使用自动化指标(如BLEU/ROUGE)和人工评估来确定最佳超参数组合。这个组合将作为其他领域的基线配置。
Step 3: 部署与推理
这部分是方案的关键亮点。我们有两种部署策略可选:
策略A(初期/简单):权重合并,独立部署
操作:将训练好的LoRA适配器与基础LLaMA-3模型离线合并,生成三个独立的、专门化的8B模型(model_A, model_B, model_C)。
优点:部署简单,与部署普通模型无异,实现零推理延迟。
缺点:如果三个模型需要同时提供服务,会占用 3 * 16GB 的显存,成本较高。
策略B(长期/可扩展):动态适配器,共享部署
操作:在服务器上只加载一个基础LLaMA-3 8B模型。当来自“金融领域”的请求到达时,推理引擎动态加载金融LoRA适配器来处理请求。
优点:极度节省显存(只需1 * 16GB),是扩展到十几个乃至上百个领域的唯一可行方案。
缺点:需要更先进的推理服务器(如Hugging Face TGI, vLLM)支持,且适配器切换可能引入微秒级的延迟。
我们的建议:初期为了快速上线,采用策略A。随着业务领域扩展到5个以上,立即转向策略B以控制成本。
- 风险与备用计划
正如你所说,如果某个领域(比如需要复杂逻辑推理的“技术故障排查”)使用LoRA后性能无法达到业务要求,我们将启动备用计划。
备用计划:
增加LoRA的秩 r 和调整作用的模块(如加入FFN层)。
如果仍然无效,说明该任务可能超出了“适配”的范畴,需要进行全量微调。但我们只对这一个特定领域的模型进行全量微调,其他领域继续享受LoRA的成本优势。这体现了方案的灵活性。
问题 9:LORA有哪些变体
我们可以将这些变体大致分为三类:追求更高效率的、追求更强性能的,以及扩展新功能的。
- 追求更高效率 (更少的内存,更少的参数)
QLoRA (Quantized LoRA)
解决的问题:标准LoRA虽然可训练参数少,但推理和训练时仍需要加载完整的基础模型(例如,16-bit,占用约14GB for 7B模型),这对消费级GPU来说依然是巨大的负担。
核心思想:
4位量化:将冻结的基础模型量化到4-bit精度(使用一种叫NF4的新格式),极大地降低了显存占用。
解冻适配器:在4-bit模型之上,插入正常的16-bit LoRA适配器进行训练。
分页优化器 (Paged Optimizers):利用NVIDIA统一内存功能,防止在处理长序列时因梯度检查点而导致的内存溢出。
效果:革命性的!它使得在单张24GB的消费级GPU(如3090/4090)上微调40B甚至65B的大模型成为可能。是目前最流行、应用最广的LoRA变体。
VeRA (Vector-based Random Matrix Adaptation)
解决的问题:标准LoRA中,每个目标层都需要一对独立的 A 和 B 矩阵,所有这些矩阵加起来的参数量仍然可能很大。
核心思想:
共享矩阵:在整个模型中,只使用一对共享的、随机冻结的低秩矩阵。
学习向量:对于每个原始的权重矩阵 W,只学习两个非常小的缩放向量 b 和 d。更新 ΔW 由这些向量和共享矩阵计算得出。
效果:可训练参数比LoRA少90%,但性能却惊人地相似。非常适合对参数效率要求极高的场景。
- 追求更强性能 (更好的效果,更稳定的训练)
DoRA (Weight-Decomposed Low-Rank Adaptation)
解决的问题:LoRA的更新 ΔW 和原始权重 W 只是简单相加,这可能不是最优的微调方式。作者发现全量微调倾向于同时改变权重的“大小” (Magnitude)** 和 “方向” (Direction),而LoRA主要改变方向。**
核心思想:
权重分解:首先将预训练权重 W 分解为一个“大小”向量 m 和一个“方向”矩阵 V。
定向微调:将LoRA应用于方向矩阵 V,同时训练“大小”向量 m。
效果:在多种任务和模型上,性能通常都优于LoRA和LoRA+,训练更稳定,尤其是在秩 r 较低时。这是目前一个非常热门的性能增强方向。
AdaLoRA (Adaptive LoRA)
解决的问题:标准LoRA为所有权重矩阵分配了固定的秩 r。但实际上,不同模块(比如某些注意力头 vs FFN层)在微调中的重要性是不同的,应该有不同的更新粒度。
核心思想:动态分配秩。它根据权重的重要性得分,在训练过程中动态地、智能地为不同的矩阵分配不同的秩预算。重要的权重矩阵会获得更高的秩,不重要的则获得更低的秩,甚至被剪枝为0。
效果:在参数量相同的情况下,通常比固定秩的LoRA效果更好,因为它把有限的参数“用在了刀刃上”。
LoRA+
解决的问题:一个简单的训练技巧。原版LoRA对矩阵A和B使用相同的学习率。
核心思想:为矩阵 A 和 B 设置不同的学习率。通常将 B 的学习率设为常规值,而将 A 的学习率设得非常小(例如,常规值的1/16或更低)。
效果:一个简单但有效的“免费午餐”,往往能带来微小但稳定的性能提升。
- 扩展新功能
LongLoRA
解决的问题:标准微调通常会破坏大模型原有的长文本理解能力。如何在微调的同时有效扩展模型的上下文窗口?
核心思想:结合LoRA和稀疏注意力机制。在微调时,使用一种“位移稀疏注意力”(Shifted Sparse Attention, S2-Attn),它能有效捕捉长距离依赖,同时计算成本远低于全注意力。
效果:能够在有限的计算成本下,将模型的上下文窗口扩展到非常长(如从4k到100k),同时保持不错的性能。
总结与选择
| 变体 | 主要目标 | 工作原理简介 | 什么时候使用? |
|---|---|---|---|
| QLoRA | 效率 | 4-bit量化基础模型 + 16-bit LoRA | 显存极其有限时。这是在消费级GPU上进行微调的首选和默认选项。 |
| DoRA | 性能 | 分解权重为大小和方向,对方向做LoRA | 当你追求极致性能,愿意接受轻微的复杂性增加时。可以和QLoRA结合。 |
| VeRA | 效率 | 共享随机矩阵,只学习缩放向量 | 当可训练参数量被限制到极小(如几万个)时,或者在边缘设备上。 |
| AdaLoRA | 性能/效率 | 动态分配不同层级的秩 | 当你想在严格的参数预算下最大化模型性能时。 |
| LongLoRA | 新功能 | LoRA + 稀疏注意力 | 当你的任务需要模型处理非常长的文本时(如长文档问答、全书摘要)。 |
这个领域发展非常快,但掌握了以上这些主流变体,你就对LoRA生态有了非常全面和深入的理解。在实际项目中,最常见的组合就是 QLoRA + DoRA,兼顾了效率与性能。
1878

被折叠的 条评论
为什么被折叠?



