机器学习与线性代数

最新推荐文章于 2024-01-13 17:05:28 发布

bingxiash

最新推荐文章于 2024-01-13 17:05:28 发布

阅读量416

点赞数

分类专栏：机器学习数学强化

本文链接：https://blog.csdn.net/u014168855/article/details/104112689

版权

机器学习数学强化专栏收录该内容

3 篇文章 0 订阅

订阅专栏

目录索引

一矩阵
二特征值和特征向量
1.对称阵，正交阵和正定阵
三矩阵求导

一矩阵

1.线性代数的应用（以SVD为例）

SVD是在机器学习中广泛使用的算法，不光可以用于降维算法的特征分解，也可以用于推荐系统，以及自然语言处理等领域，是很多机器学习算法的基石。
奇异值分解是一种重要的矩阵分解方法，可以看作方阵在任意矩阵上的推广。
假设A是一个 $m\times n$ 阶实矩阵，则存在一个分解使得
$A_{m\times n}=U_{m\times m}\sum_{m\times n}V_{n\times n}^{T}$
求解如下 $(A^T\cdot A)\nu_i=\lambda_i\nu_i\Rightarrow \begin{cases} \delta_i=\sqrt{\lambda_i} \\ \mu_i=\frac{1}{\delta_i}A\cdot \nu_i \end{cases}$
其中, $\sum$ 对角线上的元素称为矩阵A的奇异值
$U$ 的第 $i$ 列称为A的关于 $\delta_i$ 的右奇异向量
$V$ 的第 $i$ 列称为A的关于 $\delta_i$ 的左奇异向量

2.方阵的行列式

(1)方阵的行列式

一阶方阵的行列式为元素的本身；
$n$ 阶方阵的行列式等于它的任一行（或列）的各元素与其对应的代数余子式和。

(2)代数余子式

任一个 $n$ 阶行列式A中，把 $(i, j)$ 元素 $a_{ij}$ 所在的第i行和第j列划去后，留下的n-1阶方阵的行列式叫做 $a_{ij}$ 的余子式，记作 $M_{ij}$ ，代数余子式为 $A_{ij}=(-1)^{i+j}M_{ij}$ 。

(3)行列式计算

$\forall 1 \le i \le n, |A|=\sum_{j=1}^{n}a_{ij}\cdot (-1)^{i+j}M_{ij}$
$\forall 1 \le j \le n, |A|=\sum_{i=1}^{n}a_{ij}\cdot (-1)^{i+j}M_{ij}$

(4)范德蒙行列式

$D_n=\begin{vmatrix} 1 & 1 & 1 & \cdots & 1 \\ x_1 & x_2 & x_3 & \cdots & x_n \\ x_1^2 & x_2^2 & x_3^2 & \cdots & x_n^2 \\ \vdots & \vdots & \vdots & \ddots & \vdots \\ x_1^{n-1} & x_2^{n-1} & x_3^{n-1} & \cdots & x_n^{n-1} \\ \end{vmatrix}=\prod_{i,j(n\ge i>j \ge 1)}(x_i-x_j)$
举例：
$D=\begin{vmatrix} 1 & 1 & 1 & 1 \\ 1 & 2 & 3 & 4 \\ 1 & 4 & 9 & 16 \\ 1 & 8 & 27 & 64 \\ \end{vmatrix}=(2-1)(3-2)(3-1)(4-3)(4-2)(4-1)=12$

3.矩阵乘法和状态转移矩阵

(1)矩阵乘法

$A$ 为 $m\times s$ 阶矩阵， $B$ 为 $s\times n$ 阶矩阵，那么 $C=A\times B$ 是 $m\times n$ 阶矩阵，其中
$c_{ij}=\sum_{k=1}^{s}a_{ik}b_{kj}$

(2)概率转移矩阵

考虑某随机过程 $\pi$ ，它的状态有 $n$ 个，用 $1\sim n$ 表示。记在当前时刻 $t$ 时位于 $i$ 状态，它在 $t + 1$ 时刻位于 $j$ 状态的概率为 $P (i, j) = P (j ∣ i)$ ，即状态转移概率只依赖于前一个概率。
在这里插入图片描述
举例，假定按照经济状况将人群分成上、中、下三个阶乘，用1、2、3表示。假定当前处于某阶层只和上一代有关，即：考虑父代为第 $i$ 阶层，则子代为第 $j$ 阶层的概率。如果一个人的收入属于下层类别，则它的孩子属于下层收入的概率为0.65，属于中层收入的概率为0.28，属于上层收入的概率为0.07。从父代到子代，有如下转移概率矩阵:
在这里插入图片描述
转移状态图为

第 $n + 1$ 代中处于第 $j$ 个阶层的概率为
$\pi_{n+1}=\sum_{i=1}^{k}\pi(X_n=i)\cdot P(X_{n+1}=j|X_n=i)$
$\Rightarrow \pi^{n+1}=\pi^{n}\cdot P$
因此，矩阵 $P$ 为（条件）概率转移矩阵，第 $i$ 行元素表示为在上一个状态为 $i$ 时的分布概率，即每一行元素概率和为1。
思考：初始概率分布 $\pi$ 对最终分布的影响？
探索1：初始概率分布为 $\pi=[0.21,0.68,0.1]$ 迭代结果
在这里插入图片描述
探索2：初始概率分布为 $\pi=[0.75,0.15,0.1]$ 迭代结果

可以看出，初始概率不同，但经过若干次迭代， $\pi$ 将最终稳定到某个分布上，这是概率转移矩阵的性值，事实上P矩阵的n次幂最终也会收敛。具体原因以及深入的研究会在马尔可夫模型中继续探讨，本次暂不深入探讨。

(3)矩阵和向量的乘法

A为 $\times n$ 的矩阵，x为 $\times 1$ 的列向量，则Ax为 $\times 1$ 的列向量，记为 $\vec{y}=A\cdot \vec{x}$
由于 $n$ 维向量和 $n$ 维空间上的点一一对应，上式实际上给出了从n维空间上的点到m维空间上的点的线性变换。特殊地，若 $m = n$ ，则Ax完成了n维空间内的线性变换，比如旋转或者平移等。
4.矩阵和向量组
(1)矩阵的秩
设在矩阵A中有一个不等于零的r阶子式D，且所有r+1阶子式（若存在）为0，那么D为矩阵A的最高阶非零子式，r称为矩阵A的秩，记为 $R (A) = r$ 。
$n\times n$ 可逆矩阵秩为n；
可逆矩阵又称为满秩矩阵；
矩阵的秩等于它行（列）向量组的秩。
(2)秩和线性方程组解的关系
$\left\{ \begin{array}{c} a_{11}x_1+a_{12}x_2+\cdots+a_{1n}x_n=b_1 \\ a_{21}x_1+a_{22}x_2+\cdots+a_{2n}x_n=b_2 \\ \cdots \cdots \\ a_{m1}x_1+a_{m2}x_2+\cdots+a_{mn}x_n=b_m \\ \end{array} \right. \Rightarrow A\vec{x}=\vec{b}$
无解的充要条件是： $R (A) < R (A, b)$ ；
有唯一解的充要条件是： $R (A) = R (A, b) = n$ ；
有无穷多解的充要条件是： $R (A) = R (A, b) < n$ ；
$A\vec{x}=0$ 有非零解的充要条件是 $R (A) < n$ 。
(3)向量组等价
向量 $\vec{b}$ 可由向量组: $\vec{a_1},\vec{a_2},\cdots,\vec{a_m}$ 线性表出的充要条件是矩阵 $A=(\vec{a_1},\vec{a_2},\cdots,\vec{a_m})$ 的秩等于矩阵 $B=(\vec{a_1},\vec{a_2},\cdots,\vec{a_m},\vec{b})$ 的秩。
设有两个向量组 $A:\vec{a_1},\vec{a_2},\cdots,\vec{a_m}$ 和 $B:\vec{b_1},\vec{b_2},\cdots,\vec{b_n}$ ，若向量组A和向量组B能够相互表出，则称向量组A和向量组B等价。
若向量组B可以由向量组A线性表出，则对于每个向量 $\vec{b_j}$ ，存在 $k_{1j},k_{2j},\cdots,k_{mj}$ ，使得
$\vec{b_j}=k_{1j}\vec{a_1}+k_{2j}\vec{a_2}+\cdots+k_{mj}\vec{a_m}=(\vec{a_1},\vec{a_2},\cdots,\vec{a_m})\begin{Bmatrix} k_{1j} \\ k_{2j} \\ \cdots \\ k_{mj} \\ \end{Bmatrix}$
从而得到系数矩阵K
$\begin{pmatrix}\vec{b_1}&\vec{b_2}& \cdots &\vec{b_n} \end{pmatrix}=\begin{pmatrix}\vec{a_1}&\vec{a_2}& \cdots &\vec{a_m} \end{pmatrix}\begin{pmatrix}\vec{k_{11}}&\vec{k_{12}}& \cdots &\vec{k_{1n}} \\ \vec{k_{21}}&\vec{k_{22}}& \cdots &\vec{k_{2n}}\\ \vdots&\vdots& \ddots &\vdots\\ \vec{k_{m1}}&\vec{k_{m2}}& \cdots &\vec{k_{mn}}\\ \end{pmatrix}$

二特征值和特征向量

1.对称阵，正交阵和正定阵

(1)正交阵

若 $n$ 阶矩阵 $A$ 满足 $A^T A=I$ ，则称A为正交矩阵，简称为正交阵。A是正交阵的充要条件是A的列（行）向量都是单位向量，且两两正交。若A为正交阵，则 $A\vec{x}$ 为正交变换，正交变换不改变向量长度。

(2)特征值和特征向量

$A$ 是 $n$ 阶矩阵，若数 $\lambda$ 和 $n$ 维非0列向量 $\vec{x}$ 满足 $A\vec{x}=\lambda \vec{x}$ ，则称 $\lambda$ 为A的特征值， $\vec{x}$ 为A的对应于特征值 $\lambda$ 的特征向量。
根据定义，立刻可以得到 $(A-\lambda I)\vec{x}=0$ ，令关于 $\lambda$ 的多项式 $|A-\lambda I|$ 为0，方程 $|A-\lambda I|=0$ 的根是特征值；将根 $\lambda_0$ 带入方程组 $(A-\lambda I)\vec{x}=0$ 求解到的非零解，即 $\lambda_0$ 对应的特征向量。
特征值的性质：
设n阶矩阵 $A=(a_{ij})$ 的特征值为 $\lambda1,\lambda1,\cdots,\lambda_n$ ，则有
$\lambda_1+\lambda_2+\cdots+\lambda_n=a_{11}+a_{22}+\cdots +a_{nn}$ ；
$\lambda_1 \cdot \lambda_2 \cdots \lambda_n=|A|$ 。
另外，已知 $\lambda$ 是方阵A的特征值，则有
$\lambda^2$ 是 $A^2$ 的特征值；
A可逆时， $\lambda^{-1}$ 是 $A^{-1}$ 的特征值（定义很容易证明）。
不同特征值对应的特征向量性质：
设 $\lambda_1，\lambda_2，\cdots,\lambda_m$ 是方阵A的特征值， $p_1，p_2，\cdots,p_m$ 是依次与之对应的特征向量，若 $\lambda_1，\lambda_2，\cdots,\lambda_m$ 各不相等，则 $p_1，p_2，\cdots,p_m$ 线性无关。
实对称矩阵引理：
实对称矩阵的特征值是实数；
实对称矩阵的特征向量可以取实向量；
实对称矩阵不同特征值的特征向量正交
结果证明：令实对称矩阵为A，其两个不同特征值分别 $\lambda_1，\lambda_2$ ，对应的特征向量分别为 $\mu_1,\mu_2$
$\begin{cases} A\mu_1=\lambda_1 \mu_1\\ A\mu_2=\lambda_2 \mu_2 \Rightarrow \mu_1^T\underline{A\mu_2}= \mu_1^T\underline{\lambda_2\mu_2} \\ \end{cases}$
$\Rightarrow (A^T\mu_1)^T\mu_2=\lambda_2\mu_1^T\mu_2 \Rightarrow (A\mu_1)^T\mu_2=\lambda_2\mu_1^T\mu_2$
$\Rightarrow (\lambda_1\mu_1)^T\mu_2=\lambda_2\mu_1^T\mu_2 \Rightarrow \lambda_1\mu_1^T\mu_2=\lambda_2\mu_1^T\mu_2$
$\underrightarrow{\lambda_1\neq\lambda_2} \mu_1^T\mu_2=0$
得证。
最终结论:设A为实对称n阶矩阵，则必有正交阵P使得
$P^{-1}AP=P^{T}AP=\Lambda$
其中， $\Lambda$ 是以A的特征值为对角元的对角阵，该变换也成为合同变换，A和 $\Lambda$ 互为合同矩阵。

(3)正定阵

对于n阶方阵A，若任意n阶向量 $\vec{x}$ 都有 $x^TAx>0$ ，则称矩阵A为正定矩阵。若条件改为 $x^TAx\geq0$ ，则称A为半正定。任意给定 $A^TA$ ，一定是半正定矩阵。
正定判定：
对称阵A为正定阵；
A的特征值都为正；
A的顺序主子式都大于0;
以上三命题等价。
4.QR分解
对于 $\times n$ 列满秩矩阵，必有 $A_{mn}=Q_{mn}\times R_{nn}$
其中， $Q^TQ=I$ ,即列正交矩阵，R为非奇异上三角矩阵。当要求R的对角元素为正时，该分解唯一。可用于求解A的逆矩阵以及A的特征值。
QR分解计算特征值(A为n阶方阵)
$\Rightarrow A_1=Q^TAQ=RQ$
$\cdots$
$A_k=Q_kR_k \Rightarrow A_{k+1}=R_kQ_k$
$\cdots$
$A_k\rightarrow diag(\lambda_1,\lambda_1,\cdots,\lambda_n)$

三矩阵求导

1.向量对向量求导
A为 $m\times n$ 矩阵， $\vec{x}$ 为 $n\times 1$ 的列向量，则 $A\vec{x}$ 为 $m\times1$ 的列向量，记 $\vec{y}=A\cdot \vec{x}$ ，则 $\frac{\partial{\vec{y}}}{\partial{\vec{x}}}=A^T$
公式推导
$A=\begin{bmatrix} a_{11} & a_{12}& \cdots &a_{1n} \\ a_{21} & a_{22}& \cdots &a_{2n} \\ \cdots & \cdots& \cdots& \cdots \\ a_{m1} & a_{m2}& \cdots &a_{mn} \\ \end{bmatrix} \vec{x}=\begin{Bmatrix} x_{1}\\ x_{2}\\ \vdots\\ x_{n}\\ \end{Bmatrix}A\cdot \vec{x}= \begin{Bmatrix} a_{11}x_1+a_{12}x_2+\cdots + a_{1n}x_n\\ a_{21}x_1+a_{22}x_2+\cdots + a_{2n}x_n\\ \vdots \\ a_{m1}x_1+a_{m2}x_2+\cdots + a_{mn}x_n\\ \end{Bmatrix}$
$\frac{\partial{\vec{y}}}{\partial{\vec{x}}}=\frac{\partial{A\vec{x}}}{\partial{\vec{x}}}= \begin{Bmatrix} a_{11} & a_{21}& \cdots &a_{m1} \\ a_{12} & a_{22}& \cdots &a_{m2} \\ \vdots & \vdots& \ddots& \vdots \\ a_{1n} & a_{2n}& \cdots &m_{mn} \\ \end{Bmatrix}=A^T$
结论推广： $\frac{\partial{\vec{y}}}{\partial{\vec{x}^T}}=A$
$\frac{\partial{\vec{x}^TA}}{\partial{\vec{x}}}=A$
2.标量对向量求导
A为 $\times n$ 矩阵， $\vec{x}$ 为 $\times 1$ 列向量，记 $y=\vec{x}^TA\vec{x}$ 。
$\frac{\partial{y}}{\vec{x}}=(A^T+A)\vec{x}$
公式推导
$A=\begin{bmatrix} a_{11} & a_{12}& \cdots &a_{1n} \\ a_{21} & a_{22}& \cdots &a_{2n} \\ \cdots & \cdots& \cdots& \cdots \\ a_{n1} & a_{n2}& \cdots &a_{nn} \\ \end{bmatrix} \vec{x}=\begin{Bmatrix} x_{1}\\ x_{2}\\ \vdots\\ x_{n}\\ \end{Bmatrix}$
$有：\vec{x}^TA\vec{x}=(x_1,x_2,\cdots,x_n) \cdot \begin{pmatrix} \sum_{j=1}^{n}a_{1j}x_j & \sum_{j=1}^{n}a_{2j}x_j & \cdots & \sum_{j=1}^{n}a_{nj}x_j \end{pmatrix}^T$
$=\sum_{i=1}^{n}((\sum_{j=1}^{n}a_{ij}x_j)x_i)=\sum_{i=1}^{n}\sum_{j=1}^{n}a_{ij}x_ix_j$
$则：\frac{\partial{\vec{x}^T}A\vec{x}}{\partial{\vec{x_i}}}=\begin{pmatrix} \sum_{j=1}^{n}a_{ij}x_{j} \end{pmatrix}+\begin{pmatrix} \sum_{i=1}^{n}a_{ji}x_{i} \end{pmatrix}=\sum_{j=1}^{n}(a_{ij}+a_{ji})x_j$
若A为对称矩阵，则 $\frac{\partial{y}}{\vec{x}}=2A\vec{x}$
3.标量对矩阵求导
A为 $\times n$ 方阵，|A| 为A的行列式，则 $\frac{\partial|A|}{\partial{A}}=(A^*)^T=|A|\cdot (A)^{-1}$