LoRA论文学习总结

最新推荐文章于 2025-04-14 18:58:57 发布

金闪闪_Li

最新推荐文章于 2025-04-14 18:58:57 发布

阅读量370

点赞数

分类专栏：论文总结文章标签：神经网络

本文链接：https://blog.csdn.net/u010618499/article/details/135037668

版权

论文总结专栏收录该内容

2 篇文章

订阅专栏

前言

NLP模型训练的一般范式就是在领域数据集上进行预训练来适应特定的任务，但当模型越来越大时，重新训练所有模型参数的微调就变得不太可行。LoRA（Low-Rank Adaptation）微调的思想是冻结与训练的模型权重，并将可训练的秩分解矩阵注入到Transformer架构的每一层，大大减少了下有任务的可训练参数的数量。

论文地址：https://arxiv.org/pdf/2106.09685.pdf

代码仓库：https://github.com/microsoft/LoRA

1.矩阵的秩

1.1 K阶子式

在 $m * n$ 的矩阵 $A$ 中，任取 $k$ 行与 $k$ 列( $k <= m, k <= n$ )，位于这些行列交叉处的 $k^2$ 个元素，不改变他们在 $A$ 中所处的位置次序而得的 $k$ 阶行列式，称为矩阵 $A$ 的 $k$ 阶子式。如下式中，右边矩阵就是左边矩阵的2阶子式

$\begin{bmatrix} 1 &{\color{Red} 2} &{\color{Red} 3} \\ 4 &{\color{Red} 5} &{\color{Red} 6} \\ 7 &8 &9 \end{bmatrix} \longrightarrow \begin{bmatrix} {\color{Red} 2} &{\color{Red} 3} \\ {\color{Red} 5} &{\color{Red} 6} \end{bmatrix}$

1.2 矩阵的秩

设在矩阵 $A$ 中有一个不等于0的 $r$ 阶子式 $D$ ，且所有 $r + 1$ 阶子式（如果存在的话）全等于0，那么 $D$ 称为矩阵 $A$ 的最高阶非零子式，数称 $r$ 为矩阵 $A$ 的秩，记作 $R (A)$ . 并规定零矩阵的秩等于0

这句话的意思就是，非零子式的最高阶数就秩

例如下式中的左边的矩阵经过初等变换后得到右边的矩阵，右边矩阵的最高阶非零子式的阶数为3，那就说明原矩阵的秩为3
$\begin{bmatrix} 2 &-1 &-1 &1 &2 \\ 1 &1 &-2 &1 &4 \\ 4 &-6 &2 &-2 &4 \\ 3 &6 &9 &7 &9 \end{bmatrix} \longrightarrow \begin{bmatrix} 1 &0 &-1 &0 &4 \\ 0 &1 &-1 &0 &3 \\ 0 &0 &0 &1 &-3 \\ 0 &0 &0 &0 &0 \end{bmatrix}$

2.低秩参数化更新矩阵

神经网络包含许多执行矩阵乘法的密集层，这些层中的权矩阵通常是全秩的。在适应特定任务时，预训练的语言模型具有较低的“内在维度”，尽管随机投射到较小的子空间，但仍然可以有效地学习。受此启发，论文假设权重的更新在适应过程中也具有较低的“内在秩”。对于预训练的权重矩阵 $W_0\in R^{d*k}$ ，用低阶分解成 $W_0 +\Delta W = W_0 + BA$ 来表示它的更新，其中 $B\in R^{d*r}, A\in R^{r*k}$ ，并且秩 $r\ll min(d,k)$ . 在训练过程中， $W_0$ 被冻结，不进行梯度更新，而 $A$ 和 $B$ 包含可训练参数。 $W_0$ 和 $\Delta W = BA$ 都有相同的输入，它们各自的输出向量按坐标求和。 $x$ 的正向传递过程可以表示为：
$y=W_ox+\Delta Wx=W_0x+BAx$
LoRA的训练过程如下图所示，刚开始训练时，B为全0矩阵，A通过随机高斯初始化：
在这里插入图片描述