LoRA 和 QLoRA：大模型的轻量级高效微调方法

ctrl A_ctrl C_ctrl V

已于 2024-08-02 14:23:36 修改

阅读量1.6k

点赞数 22

分类专栏： # 大模型llm 文章标签：人工智能自然语言处理深度学习

于 2024-08-01 21:13:12 首次发布

本文链接：https://blog.csdn.net/qq_43799400/article/details/140855965

版权

大模型llm 专栏收录该内容

8 篇文章

订阅专栏

文章目录

1. 模型微调的两种方式
2. LoRA
3. QLoRA

1. 模型微调的两种方式

模型微调的本质就是改变模型参数，假设原始模型的参数是 $W_0$ ，微调后的参数是 $W_1$ ，二者之间必然存在一个关系： $W_0+\triangle W=W_1$ ，所以模型微调就会有两种方式：

全量微调：直接从 $W_0$ 微调到 $W_1$ ，但对于大模型来说，全量微调很困难，费时费力费钱。
高效微调 (Parameter Efficient Fine Tuning，PEFT)：直接训练一个包含有效信息的参数矩阵 $\triangle W$ ，可以通过各种方式使得 $\triangle W$ 得参数量远小于 $W_0$ ，从而降低微调开销。

2. LoRA

paper：LoRA: Low-Rank Adaptation of Large Language Models 《大语言模型的低秩自适应微调》

code：https://github.com/microsoft/LoRA

LoRA是一种轻量化且效果非常突出的大模型微调方法，与使用Adam微调的GPT-3 175B相比，LoRA可以将可训练参数的数量减少10000倍，并将GPU内存需求减少3倍。LoRA 是一种高效微调方法，它只需要训练低秩矩阵即可，而不需要直接微调 $W_0$ ，示意图：

任何一个矩阵都可以写成两个矩阵相乘的形式，因此 $\triangle W=B*A$ 。定义 $W_0 \in R^{d*k}$ ， $\triangle W \in R^{d*k}$ ， $\in R^{d*r}$ ， $\in R^{r*k}$ ，其中 $\ll min(d,k)$ ，所以相比于 $W_0$ 和 $\triangle W$ ，矩阵 $A$ 和 $B$ 是低秩的，这就是 LoRA 名字的由来。

LoRA 的思路很简单：

微调时不改变预训练模型的参数 $W_0$ ，只是给预训练模型加一个支路（类似于ResNet），先降维再升维。
用随机高斯分布初始化降维矩阵 $A$ ，用 0 矩阵初始化升维矩阵 $B$ ，保证训练的开始支路矩阵是 0 矩阵。
训练的时候固定模型参数 $W_0$ ，只训练矩阵 $A$ 和 $B$ ，得到 $\triangle W=B*A$ ，微调后模型的参数为 $W_1=W_0+\triangle W$