大模型量化需要学习的矩阵运算基础

horryben

于 2024-09-05 09:38:47 发布

阅读量353

点赞数 7

文章标签：学习矩阵机器学习

本文链接：https://blog.csdn.net/qq_41878154/article/details/141921955

版权

矩阵运算

假设a，b为可以相互点乘的向量，对b求导为a，同理对a求导为b，这是因为在矩阵的点积运算中a的每一行会乘以b的每一列，求导的过程实际是对b的过程，，所以最后保留下来的是a而不是

对于 $p^ T Ap$ 形式的表达式，其中 A是对称矩阵，求导结果是： $\frac∂ ∂_p = 2Ap$

对于非对称矩阵A，有： $\frac ∂ ∂_p (p^ T Ap)=(A+A ^T )p$

求解矩阵 H(x) 的逆矩阵 $H(x)^{-1}$ 通常涉及线性代数的几个方法。以下是常用的方法：

直接求逆： $H(x) ^{−1} = \frac 1 {det(H(x))} adj(H(x))$ ,其中det(H(x))是矩阵H(x) 的行列式。adj(H(x)) 是H(x)的伴随矩阵。这种及算法复杂度较高，对大规模矩阵效率较低。
LU分解：将矩阵 H(x)分解为一个下三角矩阵L 和一个上三角矩阵U： $H(x)=L \cdot U$ ,通过解两个三角矩阵的逆矩阵，最终得到H(x)的逆矩阵。将 $L^{-1}$ 和 $U^{-1}$ 相乘，即可得到 $H(x)^{-1}$ ： $H(x)^{-1}=L^{-1} \cdot U^{-1}$
Cholesky分解：如果H(x)是正定的（这是海森矩阵常见的性质），我们可以使用 Cholesky 分解，它更为高效：将矩阵H(x)分解为一个下三角矩阵L及其转置： $H(x)^{-1}=L \cdot L^T$ ,通过解两个三角矩阵的逆矩阵（与 LU 分解类似）来求出 $H(x)^{-1}$ 。
共轭梯度法：对于非常大的矩阵，直接求逆是不切实际的。在这种情况下，共轭梯度法是一种常用的迭代方法，用于求解H(x)p = -∇L(x)这样的线性方程组，而无需显式求出 $H(x)^{-1}$ 。

伴随矩阵是线性代数中的一个概念，与矩阵的逆和行列式有关。对于一个给定的方阵A，伴随矩阵 adj(A)是一个矩阵，其元素是A的代数余子式（cofactor）的转置。

具体来说，给定一个 $n \times n$ 的矩阵A，伴随矩阵adj(A)的计算步骤如下：

1 计算代数余子式：对于矩阵A中的每一个元素 $a_{ij}$ ，计算其代数余子式 $C_{ij}$ 。代数余子式是去掉i行和j列后，剩余矩阵的行列式，再乘以 $(-1)^{i+j}$ .

2 形成代数余子式矩阵：将所有代数余子式 $C_{ij}$ 组成一个新的矩阵 C，这个矩阵称为代数余子式矩阵.

3 转置：对代数余子式矩阵C进行转置，得到伴随矩阵 adj(A)。

伴随矩阵有一个重要的性质，就是对于任意的方阵 A，有： $A\cdot adj(A) = adj(A) \cdot A = det(A)\cdot I$ 其中 det(A)是矩阵A的行列式，I是单位矩阵.

伴随矩阵在计算矩阵的逆时也非常有用，特别是当矩阵A可逆时： $A^{−1} = \frac{1}{\det(A)} \text{adj}(A)$

关注