LoRA是大模型微调方法的一种,它的特点是只在模型的 部分权重(如 QKV 矩阵) 上 添加可训练参数
通过 低秩矩阵(A×B) 来优化参数更新
优点:
极大降低显存消耗(deepseek 7B 只需 10GB)
适用于多任务 LoRA 适配器切换
训练速度快
例如在 Transformer 里,自注意力(Self-Attention)计算:
Y=XW,
其中 X 是input, W是原始模型的权重矩阵(全连接层).
传统的Fine-tuning就是直接对 W 进行梯度更新,导致需要存储整个 W 的更新版本,显存占用极大。
LoRA 关键思想:
不直接更新 W,而是 用两个小矩阵 A A A 和 B B B 近似建模 W 的变化:
W ′ = W + Δ W W' = W + \Delta W W′=W+ΔW
Δ W = A B \Delta W = AB ΔW=AB
其中:
A ∈ R d × r A \in \mathbb{R}^{d \times r} A∈Rd×r