LoRA (Low-Rank Adaptation) 的核心与原理

最新推荐文章于 2025-04-20 11:37:12 发布

二分掌柜的

最新推荐文章于 2025-04-20 11:37:12 发布

阅读量936

点赞数 17

分类专栏：大模型文章标签： transformer gpt

本文链接：https://blog.csdn.net/flyfish1986/article/details/144295490

版权

大模型专栏收录该内容

260 篇文章

订阅专栏

LoRA (Low-Rank Adaptation) 的核心与原理

flyfish

1. 背景与动机

1.1 模型微调的挑战

深度学习中大型模型（如 GPT 等）的参数量巨大（通常在数十亿甚至数千亿级别）。对这些模型进行微调时，主要面临以下挑战：

计算成本高：全参数微调需要优化所有参数，这对存储和计算资源要求极高。
数据适配难度大：不同任务的数据分布可能大不相同，对全参数微调需要更多的数据和训练时间。
存储开销大：每个任务都需要保存一整套模型权重，导致存储压力巨大。

1.2 低秩近似的启发

LoRA 的灵感来自 矩阵低秩近似 的思想。大型模型的权重矩阵通常具有冗余性，可以通过低秩分解减少参数量，同时保留大部分信息。因此，LoRA 提出了以低秩矩阵更新权重的思路。

2. LoRA 的核心思想

2.1 参数分解

假设我们需要微调的权重矩阵为 $W$ （形状为 $\times k$ ），其更新形式通常为：
$\Delta W$
其中 $\Delta W$ 是要优化的权重更新矩阵。

LoRA 的核心是将 $\Delta W$ 分解为两个低秩矩阵 $A$ 和 $B$ 的乘积：
$\Delta W = A B$
其中：

$\in \mathbb{R}^{d \times r}$ 和 $\in \mathbb{R}^{r \times k}$ ；
$\ll \min(d, k)$ 是低秩的维度，远小于 $W$ 的原始维度；
原始参数 $W$ 不变，只更新小规模的 $A$ 和 $B$ 。

2.2 权重更新形式

将低秩分解融入到模型训练中后，权重矩阵的更新可以写为：
$W^{'} = W + A B$
这种形式仅需要优化 $A$ 和 $B$ ，极大地减少了训练时的参数量和内存开销。

3. 数学原理

3.1 矩阵低秩近似

LoRA 的核心原理基于矩阵低秩近似。对于一个高维矩阵 $W$ ，我们假设它的更新 $\Delta W$ 存在低秩结构，即：
$\Delta W \approx A B$
这种假设来源于高维数据中普遍存在的冗余性。例如，在自然语言处理任务中，词向量或句子向量的分布通常在低维子空间中具有主要的变化方向。

3.2 奇异值分解 (SVD)

低秩近似的数学基础是 奇异值分解 (SVD)。假设矩阵 $W$ 的 SVD 为：
$\Sigma V^\top$

$U$ 和 $V$ 是正交矩阵，表示正交方向；
$\Sigma$ 是对角矩阵，其对角线上的奇异值表示矩阵的拉伸强度。

通过截断 $\Sigma$ 中较小的奇异值，矩阵可以被近似为低秩形式。这一思想为 LoRA 提供了理论依据。

3.3 优化形式

在训练过程中，LoRA 只优化 $A$ 和 $B$ ，而不是完整的 $W$ 。这种分解形式有效减少了参数量，优化问题的搜索空间从 $\times k$ 减少到 $\times (d + k)$ 。

4. LoRA 的实现细节

4.1 插入位置

LoRA 通常插入到模型的特定层，例如 Transformer 的注意力层或前馈网络层。具体来说：

注意力层的投影矩阵：用于计算 $Q, K, V$ 的权重矩阵适合作为低秩分解的目标；
前馈网络的线性层：这些权重矩阵也可通过 LoRA 进行优化。

4.2 参数化形式

以自注意力机制中的权重矩阵 $W_q$ （用于生成 Query 向量）为例，LoRA 的更新形式为：
$W_q' = W_q + \Delta W_q, \quad \Delta W_q = A_q B_q$
其中 $A_q \in \mathbb{R}^{d \times r}$ ， $B_q \in \mathbb{R}^{r \times k}$ 。

4.3 零初始化

为了避免影响模型初始性能，LoRA 通常将 $A$ 或 $B$ 在初始化时设置为零矩阵。这样，初始权重矩阵 $W$ 完全保持原样。

名词解释

1. 奇异值 (Singular Value) 的例子

假设我们有一个矩阵 $W$ ：

$\begin{bmatrix} 3 & 2 \\ 2 & 3 \end{bmatrix}$

对其进行奇异值分解，得到：

$\Sigma V^\top$
其中：

$\begin{bmatrix} 1/\sqrt{2} & -1/\sqrt{2} \\ 1/\sqrt{2} & 1/\sqrt{2} \end{bmatrix}$
（输入方向的正交基）
$\Sigma = \begin{bmatrix} 5 & 0 \\ 0 & 1 \end{bmatrix}$
（奇异值对角矩阵）
$V^\top = \begin{bmatrix} 1/\sqrt{2} & 1/\sqrt{2} \\ -1/\sqrt{2} & 1/\sqrt{2} \end{bmatrix}$
（输出方向的正交基）

直观理解：

奇异值 $\sigma_1 = 5, \sigma_2 = 1$ ：
- $\sigma_1 = 5$ 表示 $W$ 沿着某个特定方向放大了数据的长度 5 倍；
- $\sigma_2 = 1$ 表示另一个方向上，数据的长度没有被拉伸或压缩。
大的奇异值表示该方向上的信息贡献更大，小的奇异值方向上的信息较少。

2. 特征值 (Eigenvalue) 的例子

假设我们有一个方阵 $A$ ：

$\begin{bmatrix} 4 & 2 \\ 1 & 3 \end{bmatrix}$

计算特征值，解特征方程 $\det(A - \lambda I) = 0$ ：

$\lambda_1 = 5, \quad \lambda_2 = 2$

计算特征向量：

对应 $\lambda_1 = 5$ ，特征向量为 $v_1 = \begin{bmatrix} 2 \\ 1 \end{bmatrix}$ ；
对应 $\lambda_2 = 2$ ，特征向量为 $v_2 = \begin{bmatrix} -1 \\ 1 \end{bmatrix}$ 。

直观理解：

特征值表示矩阵沿着特定方向拉伸或缩放的强度：
- $\lambda_1 = 5$ ：在方向 $v_1$ 上被拉伸 5 倍；
- $\lambda_2 = 2$ ：在方向 $v_2$ 上被拉伸 2 倍。
特征向量定义了不改变方向的变换轴。

3. 低秩子空间 (Low-Rank Subspace) 的例子

假设有一个矩阵 $M$ ：

$\begin{bmatrix} 1 & 2 \\ 2 & 4 \end{bmatrix}$

计算矩阵的秩（行和列的线性独立数）：

第二行是第一行的 2 倍，所以矩阵的秩为 1。

这意味着矩阵的所有信息都集中在一个一维子空间上。

低秩近似：

将 $M$ 分解为 $\Sigma V^\top$ ，保留最大的奇异值 $\sigma_1 = 5$ ，得到：
$\approx \begin{bmatrix} 1 \\ 2 \end{bmatrix} \begin{bmatrix} 1 & 2 \end{bmatrix} =\begin{bmatrix} 1 & 2 \\ 2 & 4 \end{bmatrix}$
即，矩阵的信息都能被一个一维向量描述。

直观理解：

低秩子空间表示矩阵的信息被压缩到一个低维空间中。矩阵的复杂度减少，但主要信息得以保留。

4. 正交矩阵 (Orthogonal Matrix) 的例子

假设有一个正交矩阵 $Q$ ：
$\begin{bmatrix} 1/\sqrt{2} & 1/\sqrt{2} \\ -1/\sqrt{2} & 1/\sqrt{2} \end{bmatrix}$

验证正交性：
$Q^\top Q = \begin{bmatrix} 1/\sqrt{2} & -1/\sqrt{2} \\ 1/\sqrt{2} & 1/\sqrt{2} \end{bmatrix} \begin{bmatrix} 1/\sqrt{2} & 1/\sqrt{2} \\ -1/\sqrt{2} & 1/\sqrt{2} \end{bmatrix} =\begin{bmatrix} 1 & 0 \\ 0 & 1 \end{bmatrix} = I$

直观理解：

正交矩阵的列（或行）是相互垂直的单位向量，表示不同方向上的独立特征。它们不会失真地改变矩阵变换后的数据方向。

5. 奇异值矩阵 (Singular Value Matrix) 的例子

假设奇异值矩阵为：
$\Sigma = \begin{bmatrix} 3 & 0 & 0 \\ 0 & 2 & 0 \\ 0 & 0 & 0 \end{bmatrix}$

这表示矩阵的变换具有以下特性：

沿着第一个方向拉伸 3 倍；
沿着第二个方向拉伸 2 倍；
沿着第三个方向，信息为零。

按照定义的方式理解

正交基 (Orthogonal Basis)

定义：
正交基是一组相互正交（即两两垂直，内积为 0）且 标准化（每个向量的长度为 1）的向量，构成一个向量空间的基。

假设 $V$ 是一个 $n$ -维向量空间，那么正交基是 $V$ 的一组基向量：
$\{v_1, v_2, \ldots, v_n\}$
满足：

正交性：对任意 $\neq j$ ， $\langle v_i, v_j \rangle = 0$ ；
标准化：对任意 $i$ ， $v_i\| = 1$ 。

直观理解：

正交基可以看作是一组坐标轴，每个轴之间互相垂直。例如二维空间中的标准单位基：
$\begin{bmatrix} 1 \\ 0 \end{bmatrix} \quad \text{和} \quad \begin{bmatrix} 0 \\ 1 \end{bmatrix}$
是一个正交基。

奇异值和特征值的关系与区别

相同点：
- 二者都描述了矩阵的拉伸或缩放特性。
- 对于方阵，奇异值和特征值在某些情况下有直接联系。
不同点：
- 适用范围：
  - 特征值只适用于方阵；
  - 奇异值适用于任意矩阵（包括非方阵）。
- 计算方式：
  - 奇异值通过奇异值分解 $\Sigma V^\top$ 得到，对应 $W^\top W$ 或 $W^\top$ 的特征值平方根；
  - 特征值通过特征方程 $\det(A - \lambda I) = 0$ 计算。
- 物理意义：
  - 奇异值表示矩阵沿正交方向的拉伸强度；
  - 特征值表示矩阵沿特征向量方向的缩放强度。

对角矩阵 (Diagonal Matrix)

定义：
对角矩阵是指只有主对角线上的元素非零，其余元素全为零的矩阵。
形式为：
$\Sigma = \begin{bmatrix} \sigma_1 & 0 & 0 & \cdots & 0 \\ 0 & \sigma_2 & 0 & \cdots & 0 \\ 0 & 0 & \sigma_3 & \cdots & 0 \\ \vdots & \vdots & \vdots & \ddots & 0 \\ 0 & 0 & 0 & \cdots & \sigma_n \end{bmatrix}$

其中， $\sigma_1, \sigma_2, \ldots, \sigma_n$ 是主对角线上的非零元素。

直观理解：

对角矩阵仅对数据的每个方向做独立拉伸或压缩。
它是一种最简单的矩阵形式，因为它没有“交叉作用”（非对角线元素为 0）。

结合 SVD 理解

在奇异值分解中，矩阵 $W$ 被分解为：
$\Sigma V^\top$
其中：

$U$ 和 $V$ ：正交矩阵，其列向量是正交基，表示输入和输出空间的方向；
$\Sigma$ ：对角矩阵，其对角线上的奇异值表示沿正交基方向的拉伸强度。

例子：

假设：
$\begin{bmatrix} 3 & 0 \\ 4 & 0 \end{bmatrix}$

SVD 分解为：
$\Sigma V^\top, \quad \text{其中：}$

$\begin{bmatrix} 0.6 & -0.8 \\ 0.8 & 0.6 \end{bmatrix}$ ：输入方向的正交基；
$\begin{bmatrix} 1 & 0 \\ 0 & 1 \end{bmatrix}$ ：输出方向的正交基；
$\Sigma = \begin{bmatrix} 5 & 0 \\ 0 & 0 \end{bmatrix}$ ：奇异值矩阵，表示仅在某一方向上拉伸 5 倍。

1. 奇异值 (Singular Value)

定义：
奇异值是描述一个矩阵变换特性的标量，它体现了矩阵在不同方向上对数据的拉伸或压缩程度。

对于一个矩阵 $\in \mathbb{R}^{m \times n}$ ，通过 奇异值分解（SVD） 得到：
$\Sigma V^\top$

$\Sigma$ 是对角矩阵，其对角线上的值称为矩阵 $W$ 的 奇异值，按从大到小排列。

物理意义：

方向变换强度：奇异值告诉我们，矩阵 $W$ 对某些方向的作用有多大。例如，大的奇异值方向上，数据被放大较多；小的奇异值方向上，数据被压缩或忽略。
信息贡献：大的奇异值对应重要信息，小的奇异值对应冗余或噪声。

2. 特征值 (Eigenvalue)

定义：
特征值是线性变换的一个标量，用于描述变换后的向量如何被拉伸或缩放。对于一个方阵 $\in \mathbb{R}^{n \times n}$ ，其特征值 $\lambda$ 满足：
$\lambda v$
其中 $\neq 0$ 是对应的特征向量。

奇异值与特征值的关系：

奇异值是特征值的广义形式，适用于非方阵。
如果 $W$ 是方阵，则 $W$ 的奇异值是 $W^\top W$ 或 $W^\top$ 的特征值的平方根。

3. 低秩子空间 (Low-Rank Subspace)

秩的定义：
矩阵的秩（Rank）是其线性独立行或列的最大数量，反映了矩阵的维度和复杂度。

低秩子空间的含义：
对于一个高维矩阵 $W$ ，低秩子空间表示矩阵主要信息的一个低维投影。这是因为：

大多数实际应用中，矩阵的数据存在冗余，秩会远小于矩阵的行列数。
低秩子空间通过保留主要奇异值，捕获了矩阵中最重要的信息。

低秩的实际应用：

在 LoRA 中，通过限制矩阵的秩 $r$ ，将优化限制在一个较小的子空间内，从而实现参数高效化。

4. 正交矩阵 (Orthogonal Matrix)

定义：
正交矩阵 $Q$ 满足：
$Q^\top Q = I$
其中 $Q^\top$ 是 $Q$ 的转置矩阵， $I$ 是单位矩阵。

性质：

列向量或行向量两两正交，且每个向量的模长为 1；
正交矩阵的逆矩阵等于其转置矩阵。

在 SVD 中的作用：

奇异值分解中的矩阵 $U$ 和 $V$ 都是正交矩阵，分别代表输入和输出数据的正交方向。

5. 奇异值矩阵 (Singular Value Matrix)

定义：
奇异值矩阵 $\Sigma$ 是一个对角矩阵，形如：
$\Sigma = \begin{bmatrix} \sigma_1 & 0 & \cdots & 0 \\ 0 & \sigma_2 & \cdots & 0 \\ \vdots & \vdots & \ddots & \vdots \\ 0 & 0 & \cdots & \sigma_r \\ \end{bmatrix}$