【LORA微调的A初始化为0,B不为零的解释】

Ai君臣

已于 2024-10-28 10:46:56 修改

阅读量1.1k

点赞数 14

分类专栏： LLMS 微调文章标签： lora

于 2024-10-26 11:19:59 首次发布

本文链接：https://blog.csdn.net/liuchenbaidu/article/details/143249687

版权

LLMS 微调专栏收录该内容

20 篇文章

订阅专栏

假设你有一个模型，其中 ( $w_0 \cdot x + B \cdot A \cdot x$ )，这里 ( $w_0$ ) 是权重，( B ) 和 ( A ) 是矩阵，
( $x$ ) 是输入向量。这样的表达式在神经网络中是常见的，尤其是当你考虑到多层结构和线性变换时。对这样的模型进行梯度计算，可以分解为对每个参数的偏导数。

前提

首先，我们定义模型输出：

$w_0 \cdot x + B \cdot A \cdot x$

我们假设损失函数 ( L ) 依然使用均方误差，用于评估预测 ( h ) 和真实目标值 ( y ) 之间的差异：
$\frac{1}{2} (h - y)^2$

梯度计算

对 ( $w_0$ ) 的偏导:
- 使用链式法则：
  $\frac{\partial L}{\partial w_0} = \frac{\partial L}{\partial h} \cdot \frac{\partial h}{\partial w_0}$
- 其中：
  $\frac{\partial L}{\partial h} = (h - y)$
  $\frac{\partial h}{\partial w_0} = x$
- 所以：
  $\frac{\partial L}{\partial w_0} = (h - y) \cdot x$
对矩阵 ( B ) 的偏导:
- 同样使用链式法则：
  $\frac{\partial L}{\partial B} = \frac{\partial L}{\partial h} \cdot \frac{\partial h}{\partial B}$
- 其中 ( \frac{\partial h}{\partial B} ) 需要使用矩阵乘法的导数规则：
  $\frac{\partial h}{\partial B} = (A \cdot x)^\top$
- 所以：
  $\frac{\partial L}{\partial B} = (h - y) \cdot (A \cdot x)^\top$
对矩阵 ( A ) 的偏导:
- 链式法则：
  $\frac{\partial L}{\partial A} = \frac{\partial L}{\partial h} \cdot \frac{\partial h}{\partial A}$
- 计算 ( \frac{\partial h}{\partial A} ) 也需要用到矩阵导数，特别是矩阵相乘的情况：
  $\frac{\partial h}{\partial A} = B^\top \cdot x$
- 所以：
  $\frac{\partial L}{\partial A} = B^\top \cdot x \cdot (h - y)$