深度学习需要掌握的数学知识②【线性代数-part2】

Morejay

已于 2023-07-04 13:30:27 修改

阅读量2.3k

点赞数

分类专栏：深度学习文章标签：线性代数深度学习矩阵

于 2023-07-04 13:14:22 首次发布

本文链接：https://blog.csdn.net/morejay/article/details/131532839

版权

深度学习专栏收录该内容

9 篇文章 0 订阅

订阅专栏

线性方程组

1．克莱姆法则

线性方程组 $\begin{cases} a_{11}x_{1} + a_{12}x_{2} + \cdots +a_{1n}x_{n} = b_{1} \\ a_{21}x_{1} + a_{22}x_{2} + \cdots + a_{2n}x_{n} =b_{2} \\ \quad\cdots\cdots\cdots\cdots\cdots\cdots\cdots\cdots\cdots \\ a_{n1}x_{1} + a_{n2}x_{2} + \cdots + a_{{nn}}x_{n} = b_{n} \\ \end{cases}$ ，如果系数行列式 $\left| A \right| \neq 0$ ，则方程组有唯一解， $x_{1} = \frac{D_{1}}{D},x_{2} = \frac{D_{2}}{D},\cdots,x_{n} =\frac{D_{n}}{D}$ ，其中 $D_{j}$ 是把 $D$ 中第 $j$ 列元素换成方程组右端的常数列所得的行列式。

2. $n$ 阶矩阵 $A$ 可逆 $\Leftrightarrow Ax = 0$ 只有零解。 $\Leftrightarrow\forall b,Ax = b$ 总有唯一解，一般地， $r(A_{m \times n}) = n \Leftrightarrow Ax= 0$ 只有零解。

3.非奇次线性方程组有解的充分必要条件，线性方程组解的性质和解的结构

(1) 设 $A$ 为 $\times n$ 矩阵，若 $r(A_{m \times n}) = m$ ，则对 $A x = b$ 而言必有 $\vdots b) = m$ ，从而 $A x = b$ 有解。

(2) 设 $x_{1},x_{2},\cdots x_{s}$ 为 $A x = b$ 的解，则 $k_{1}x_{1} + k_{2}x_{2}\cdots + k_{s}x_{s}$ 当 $k_{1} + k_{2} + \cdots + k_{s} = 1$ 时仍为 $A x = b$ 的解；但当 $k_{1} + k_{2} + \cdots + k_{s} = 0$ 时，则为 $A x = 0$ 的解。特别 $\frac{x_{1} + x_{2}}{2}$ 为 $A x = b$ 的解； $2x_{3} - (x_{1} +x_{2})$ 为 $A x = 0$ 的解。

(3) 非齐次线性方程组 ${Ax} = b$ 无解 $\Leftrightarrow r(A) + 1 =r(\overline{A}) \Leftrightarrow b$ 不能由 $A$ 的列向量 $\alpha_{1},\alpha_{2},\cdots,\alpha_{n}$ 线性表示。

4.奇次线性方程组的基础解系和通解，解空间，非奇次线性方程组的通解

(1) 齐次方程组 ${Ax} = 0$ 恒有解(必有零解)。当有非零解时，由于解向量的任意线性组合仍是该齐次方程组的解向量，因此 ${Ax}= 0$ 的全体解向量构成一个向量空间，称为该方程组的解空间，解空间的维数是 $n - r (A)$ ，解空间的一组基称为齐次方程组的基础解系。

(2) $\eta_{1},\eta_{2},\cdots,\eta_{t}$ 是 ${Ax} = 0$ 的基础解系，即：

$\eta_{1},\eta_{2},\cdots,\eta_{t}$ 是 ${Ax} = 0$ 的解；
$\eta_{1},\eta_{2},\cdots,\eta_{t}$ 线性无关；
${Ax} = 0$ 的任一解都可以由 $\eta_{1},\eta_{2},\cdots,\eta_{t}$ 线性表出.
$k_{1}\eta_{1} + k_{2}\eta_{2} + \cdots + k_{t}\eta_{t}$ 是 ${Ax} = 0$ 的通解，其中 $k_{1},k_{2},\cdots,k_{t}$ 是任意常数。

矩阵的特征值和特征向量

1.矩阵的特征值和特征向量的概念及性质

(1) 设 $\lambda$ 是 $A$ 的一个特征值，则 ${kA},{aA} + {bE},A^{2},A^{m},f(A),A^{T},A^{- 1},A^{*}$ 有一个特征值分别为
$b,\lambda^{2},\lambda^{m},f(\lambda),\lambda,\lambda^{- 1},\frac{|A|}{\lambda},$ 且对应特征向量相同（ $A^{T}$ 例外）。

(2)若 $\lambda_{1},\lambda_{2},\cdots,\lambda_{n}$ 为 $A$ 的 $n$ 个特征值，则 $\sum_{i= 1}^{n}\lambda_{i} = \sum_{i = 1}^{n}a_{{ii}},\prod_{i = 1}^{n}\lambda_{i}= |A|$ ,从而 $\neq 0 \Leftrightarrow A$ 没有特征值。

(3)设 $\lambda_{1},\lambda_{2},\cdots,\lambda_{s}$ 为 $A$ 的 $s$ 个特征值，对应特征向量为 $\alpha_{1},\alpha_{2},\cdots,\alpha_{s}$ ，

若: $\alpha = k_{1}\alpha_{1} + k_{2}\alpha_{2} + \cdots + k_{s}\alpha_{s}$ ,

则: $A^{n}\alpha = k_{1}A^{n}\alpha_{1} + k_{2}A^{n}\alpha_{2} + \cdots +k_{s}A^{n}\alpha_{s} = k_{1}\lambda_{1}^{n}\alpha_{1} +k_{2}\lambda_{2}^{n}\alpha_{2} + \cdots k_{s}\lambda_{s}^{n}\alpha_{s}$ 。

2.相似变换、相似矩阵的概念及性质

(1) 若 $\sim B$ ，则

$A^{T} \sim B^{T},A^{- 1} \sim B^{- 1},,A^{*} \sim B^{*}$
$|B|,\sum_{i = 1}^{n}A_{{ii}} = \sum_{i =1}^{n}b_{{ii}},r(A) = r(B)$
$|\lambda E - A| = |\lambda E - B|$ ，对 $\forall\lambda$ 成立

3.矩阵可相似对角化的充分必要条件

(1)设 $A$ 为 $n$ 阶方阵，则 $A$ 可对角化 $\Leftrightarrow$ 对每个 $k_{i}$ 重根特征值 $\lambda_{i}$ ，有 $n-r(\lambda_{i}E - A) = k_{i}$

(2) 设 $A$ 可对角化，则由 $P^{- 1}{AP} = \Lambda,$ 有 $A = {PΛ}P^{-1}$ ，从而 $A^{n} = P\Lambda^{n}P^{- 1}$

(3) 重要结论

若 $\sim B,C \sim D$ ，则 $\begin{bmatrix} A & O \\ O & C \\\end{bmatrix} \sim \begin{bmatrix} B & O \\ O & D \\\end{bmatrix}$ .
若 $\sim B$ ，则 $\sim f(B),\left| f(A) \right| \sim \left| f(B)\right|$ ，其中 $f (A)$ 为关于 $n$ 阶方阵 $A$ 的多项式。
若 $A$ 为可对角化矩阵，则其非零特征值的个数(重根重复计算)＝秩( $A$ )

4.实对称矩阵的特征值、特征向量及相似对角阵

(1)相似矩阵：设 $A, B$ 为两个 $n$ 阶方阵，如果存在一个可逆矩阵 $P$ ，使得 $B =P^{- 1}{AP}$ 成立，则称矩阵 $A$ 与 $B$ 相似，记为 $\sim B$ 。

(2)相似矩阵的性质：如果 $\sim B$ 则有：

$A^{T} \sim B^{T}$
$A^{- 1} \sim B^{- 1}$ （若 $A$ ， $B$ 均可逆）
$A^{k} \sim B^{k}$ （ $k$ 为正整数）
$\left| {λE} - A \right| = \left| {λE} - B \right|$ ，从而 $A, B$
有相同的特征值
$\left| A \right| = \left| B \right|$ ，从而 $A, B$ 同时可逆或者不可逆
秩 $\left( A \right) =$ 秩 $\left( B \right),\left| {λE} - A \right| =\left| {λE} - B \right|$ ， $A, B$ 不一定相似

二次型

1. $\mathbf{n}$ 个变量 $\mathbf{x}_{\mathbf{1}}\mathbf{,}\mathbf{x}_{\mathbf{2}}\mathbf{,\cdots,}\mathbf{x}_{\mathbf{n}}$ 的二次齐次函数

$f(x_{1},x_{2},\cdots,x_{n}) = \sum_{i = 1}^{n}{\sum_{j =1}^{n}{a_{{ij}}x_{i}y_{j}}}$ ，其中 $a_{{ij}} = a_{{ji}}(i,j =1,2,\cdots,n)$ ，称为 $n$ 元二次型，简称二次型. 若令 $\ \begin{bmatrix}x_{1} \\ x_{1} \\ \vdots \\ x_{n} \\ \end{bmatrix},A = \begin{bmatrix} a_{11}& a_{12}& \cdots & a_{1n} \\ a_{21}& a_{22}& \cdots & a_{2n} \\ \cdots &\cdots &\cdots &\cdots \\ a_{n1}& a_{n2} & \cdots & a_{{nn}} \\\end{bmatrix}$ ,这二次型 $f$ 可改写成矩阵向量形式 $f =x^{T}{Ax}$ 。其中 $A$ 称为二次型矩阵，因为 $a_{{ij}} =a_{{ji}}(i,j =1,2,\cdots,n)$ ，所以二次型矩阵均为对称矩阵，且二次型与对称矩阵一一对应，并把矩阵 $A$ 的秩称为二次型的秩。

2.惯性定理，二次型的标准形和规范形

(1) 惯性定理

对于任一二次型，不论选取怎样的合同变换使它化为仅含平方项的标准型，其正负惯性指数与所选变换无关，这就是所谓的惯性定理。

(2) 标准形

二次型 $\left( x_{1},x_{2},\cdots,x_{n} \right) =x^{T}{Ax}$ 经过合同变换 $x = {Cy}$ 化为 $f = x^{T}{Ax} =y^{T}C^{T}{AC}$

$\sum_{i = 1}^{r}{d_{i}y_{i}^{2}}$ 称为 $\leq n)$ 的标准形。在一般的数域内，二次型的标准形不是唯一的，与所作的合同变换有关，但系数不为零的平方项的个数由 $r (A)$ 唯一确定。

(3) 规范形

任一实二次型 $f$ 都可经过合同变换化为规范形 $z_{1}^{2} + z_{2}^{2} + \cdots z_{p}^{2} - z_{p + 1}^{2} - \cdots -z_{r}^{2}$ ，其中 $r$ 为 $A$ 的秩， $p$ 为正惯性指数， $r - p$ 为负惯性指数，且规范型唯一。

3.用正交变换和配方法化二次型为标准形，二次型及其矩阵的正定性

设 $A$ 正定 $\Rightarrow {kA}(k > 0),A^{T},A^{- 1},A^{*}$ 正定； $∣ A ∣ > 0$ , $A$ 可逆； $a_{{ii}} > 0$ ，且 $A_{{ii}}| > 0$

$A$ ， $B$ 正定 $\Rightarrow A +B$ 正定，但 ${AB}$ ， ${BA}$ 不一定正定

$A$ 正定 $\Leftrightarrow f(x) = x^{T}{Ax} > 0,\forall x \neq 0$

$\Leftrightarrow A$ 的各阶顺序主子式全大于零

$\Leftrightarrow A$ 的所有特征值大于零

$\Leftrightarrow A$ 的正惯性指数为 $n$

$\Leftrightarrow$ 存在可逆阵 $P$ 使 $A = P^{T}P$

$\Leftrightarrow$ 存在正交矩阵 $Q$ ，使 $Q^{T}{AQ} = Q^{- 1}{AQ} =\begin{pmatrix} \lambda_{1} & & \\ \begin{matrix} & \\ & \\ \end{matrix} &\ddots & \\ & & \lambda_{n} \\ \end{pmatrix},$

其中 $\lambda_{i} > 0,i = 1,2,\cdots,n.$ 正定 $\Rightarrow {kA}(k >0),A^{T},A^{- 1},A^{*}$ 正定； $∣ A ∣ > 0, A$ 可逆； $a_{{ii}} >0$ ，且 $A_{{ii}}| > 0$ 。

奇异值分解（SVD）

参考文章：SVD原理总结

奇异值分解（SVD）在降维，数据压缩，推荐系统等有广泛的应用，任何矩阵都可以进行奇异值分解。下面通过正交变换不改变基向量间的夹角循序渐进的推导SVD算法，以及用协方差含义去理解行降维和列降维，最后介绍了SVD的数据压缩原理。

1.正交变化

$X = U Y$

上式表示：X是Y的正交变换，其中U是正交矩阵，X和Y为列向量。

正交变换的含义：

假设有两个单位列向量 $\vec{a},\vec{b}$ ，两向量的夹角为 $θ$ ，如图：

对向量 $\vec{a},\vec{b}$ 进行正交变换：
$\vec{a^{'}}=U*\vec{a} \qquad \vec{b^{'}}=U*\vec{b}$
$\vec{a^{'}},\vec{b^{'}}$ 的模（正交变换不改变向量的模）【 $∣∣ x ∣∣$ 表示范数，也有距离、长度的概念】：
$||\vec{a^{'}}||=||U*\vec{a}||=||U||*||\vec{a}||=||\vec{a}||=1\\ ||\vec{b^{'}}||=||U*\vec{b}||=||U||*||\vec{b}||=||\vec{b}||=1$
$\vec{a^{'}},\vec{b^{'}}$ 的内积（正交变换前后的内积相等）：
$\vec{a^{'}}^T*\vec{b^{'}}=(U*\vec{a})^{T}(U*\vec{b})=\vec{a}^{T}U^{T}U\vec{b}=\vec{a}^{T}\vec{b}$
$\vec{a^{'}},\vec{b^{'}}$ 的夹角 $\theta^{'}$ （由上面的公式可得 $\theta=\theta^{'}$ ）：
$cos\theta=\frac{\vec{a}^T*\vec{b}}{|\vec{a}||\vec{b}|} \qquad cos\theta^{'}=\frac{\vec{a^{'}}^T*\vec{b^{'}}}{|\vec{a^{'}}||\vec{b^{'}}|}$
因此，正交变换的性质可用下图来表示：

正交变换的两个重要性质：

正交变换不改变向量的模。
正交变换不改变向量的夹角。

如果向量 $\vec{a},\vec{b}$ 是基向量，那么正交变换后的结果如下：

向量空间的基是它的一个特殊的子集，基的元素称为基向量。向量空间中任意一个元素，都可以唯一地表示成基向量的线性组合。基向量之间是线性无关的。

例子：考虑所有坐标 (a,b)的向量空间R，这里的a和b都是实数。则非常自然和简单的基就是向量 $e_1= (1,0)$ 和 $e_2=(0,1)$ :假设v= (a,b)是R中的向量，则 $v = a (1, 0) + b (0, 1)$ 。而任何两个线性无关向量如 (1,1)和(−1,2)，也形成R的一个基。

上图可以得到重要结论：基向量正交变换后的结果仍是基向量 。基向量是表示向量最简洁的方法，向量在基向量的投影就是所在基向量的坐标，我们通过这种思想去理解特征值分解和推导SVD分解。

为什么要正交变换？

正交变换图形上最直观的作用是：一巴掌把歪七扭八的图形打正，如下：

图形立正的同时，不改变其大小与形状，表达式也随之“标准化”【规范型系数只有1，0，-1】， $x_ix_j$ 杂项群魔退散，平方项真身显现。

例题：求椭圆 $2x^2+4xy+5y^2=1$ 的面积

上式改写成矩阵形式： $X^T\begin{bmatrix} 2 & 2 \\ 2 & 5 \end{bmatrix}X=1$

①求特征值和特征向量
$|\lambda{E}-A|=0\Rightarrow\lambda_1=6,\lambda_2=1\\ (\lambda_i{E}-A)\alpha\Rightarrow\alpha_1=(1,2)^T,\alpha_2=(-2,1)^T$
②特征向量正交化（未正交需要施密特正交化）、单位化

单位化： $\alpha_{1}^{'}=\frac{\alpha_1}{|\alpha_1|},\alpha_{2}^{'}=\frac{\alpha_2}{|\alpha_2|}$ ；正交矩阵为： $Q=(a_{1}^{'},a_{2}^{'})$

③化为标准型

$f=X^TAX$ 在 $X = Q Y$ 的作用下，化为 $f=y^{T}Q^{T}AQy=6y_1^2+y_2^2$ .

最后由面积公式 $S=\pi{a}b$ 求得面积。

2.特征值分解的含义

对称方阵A的特征值分解为： $A=U\Sigma{U^{-1}}$ ，其中 $U$ 是正交矩阵， $\Sigma$ 是由方阵A得特征值构成得对角矩阵（奇异矩阵）。

为了可视化特征值分解，假设A是2×2的对称矩阵， $U=(u_1,u_2),\Sigma=(\lambda_1,\lambda_2)$ ,则将上式展开为：
$Au_1=\lambda_1u_1 \qquad Au_2=\lambda_2u_2$

由上图可知，矩阵A没有旋转特征向量，它只是对特征向量进行了拉伸或缩短（取决于特征值的大小），因此，对称矩阵对其特征向量（基向量）的变换仍然是基向量（单位化）。

**特征向量和特征值的几何意义：**若向量经过矩阵变换后保持方向不变，只是进行长度上的伸缩，那么该向量是矩阵的特征向量，伸缩倍数是特征值。

3.SVD分解推导

我们考虑了当基向量是对称矩阵的特征向量时，矩阵变换后仍是基向量，但是，我们在实际项目中遇到的大都是行和列不相等的矩阵，如统计每个学生的科目乘积，行数为学生个数，列数为科目数，这种形成的矩阵很难是方阵，因此SVD分解是更普遍的矩阵分解方法。

回顾一下正交变换的思想：基向量正交变换后的结果仍是基向量。

用正交变换的思想来推导SVD分解：

假设矩阵 $A_{M\times{N}}$ ，秩为 $K$ ， $R ank (A) = k$ 。存在一组正交基 $V$ ：
$V=(v_1,v_2,\dots,v_k)$
矩阵对其变换后仍是正交基，记为 $U$ ：
$U=(Av_1,Av_2,\dots,Av_k)$
由正交基定义，得： $Av_i)^T(Av_j)=0$ ，将其展开有：
$v_{i}^{T}A^TAv_j=0\\ when\;v_i\;is\;the\;eigenvector\;of\;A^TA:(A^TA)v_i=\lambda{v_i}\\ the\;formula\;above\;convert\;to:\lambda{v_{i}^T}v_j=0$
假设成立。

正交向量的模：
$||Av_i||^2=(Av_i)^T(Av_i)\Rightarrow\;v_{i}^{T}A^TAv_i\Rightarrow\;\lambda_{i}v_{i}^{T}v_i=\lambda_i\\ \therefore||Av_i||=\sqrt{\lambda_i}$
单位化正交向量，得：
$u_i=\frac{Av_i}{||Av_i||}=\frac{1}{\sqrt{\lambda_i}}Av_i\\ \therefore\;Av_i=\sqrt{\lambda_i}*u_i$
结论：当基向量是 $A^TA$ 的特征向量时，矩阵A转换后的向量也是基向量。

用矩阵表示上式： $AV=U\Sigma$

其中 $V=(v_1,v_2,\dots,v_k),\Sigma=\begin{bmatrix}\sigma_1&&&&\\&\sigma_2\\&&\ddots\\&&&\sigma_k\end{bmatrix},U=(u_1,u_2,\dots,u_k),\sigma_i=\sqrt{\lambda_i}$ .

矩阵 $V_{N\times{K}},U_{M\times{K}},\Sigma_{M\times{K}}$ 需要扩展成方阵：

将正交基 $U=(u_1,u_2,\dots,u_k)$ 扩展成 $(u_1,u_2,\dots,u_n)R^{n}$ 空间的正交基，即方阵 $U_{N\times{N}}$ .

将正交基 $V=(v_1,v_2,\dots,v_k)$ 扩展成 $(v_1,v_2,\dots,v_n)R^{n}$ 空间的正交基，即方阵 $V_{N\times{N}}$ ，其中 $(v_{k+1},v_{k+2},\dots,v_n)$ 是矩阵A的零空间，即： $Av_i=0,i>k$ ，对应特征值 $\sigma_i=0$ .

因此矩阵表示的式子转换为向量形式：
$AV=U\Sigma\Rightarrow\\ A(v_i,v_2\dots,v_k|v_{k+1},v_{k+2},\dots,v_n)=(u_i,u_2\dots,u_k|u_{k+1},u_{k+2},\dots,u_n) \begin{bmatrix} \sigma_1&&&&&&\\&\sigma_2&&&&&\\&&\ddots&&&&\\&&&\sigma_k&&&\\&&&&0&&\\&&&&&\ddots&\\&&&&&&0 \end{bmatrix}$
两式右乘 $V^T$ ，可得矩阵的奇异值分解：
$A=U\Sigma{V^T}\\ =(u_i,u_2\dots,u_k|u_{k+1},u_{k+2},\dots,u_n) \begin{bmatrix} \sigma_1&&&&&&\\&\sigma_2&&&&&\\&&\ddots&&&&\\&&&\sigma_k&&&\\&&&&0&&\\&&&&&\ddots&\\&&&&&&0 \end{bmatrix} \begin{bmatrix} v_1^T\\ \vdots\\v_k^T\\v_{k+1}^T\\ \vdots\\v_n^T \end{bmatrix}\\ =(u_i,u_2\dots,u_k) \begin{bmatrix} \sigma_1&&&\\&\sigma_2&&\\&&\ddots&\\&&&\sigma_k \end{bmatrix} \begin{bmatrix} v_1^T\\ \vdots\\v_k^T \end{bmatrix}\\ 令：X=(u_i,u_2\dots,u_k) \begin{bmatrix} \sigma_1&&&\\&\sigma_2&&\\&&\ddots&\\&&&\sigma_k \end{bmatrix}=(\sigma_1u_1,\sigma_2u_2,\dots,\sigma_ku_k)\\ Y=\begin{bmatrix} v_1^T\\ \vdots\\v_k^T \end{bmatrix}\\ 则：A=XY$
因为X和Y分别是列满秩和行满秩，所以上式是A的满秩分解。