线代特征值、特征向量、迹

最新推荐文章于 2022-12-30 20:19:37 发布

ErinLiu虎哥的铲屎员

最新推荐文章于 2022-12-30 20:19:37 发布

阅读量2.7k

点赞数 2

分类专栏：机器学习的数学基础文章标签：线性代数

本文链接：https://blog.csdn.net/liuerin/article/details/92794392

版权

机器学习的数学基础专栏收录该内容

2 篇文章 0 订阅

订阅专栏

最近遇到很多需要线代的数学推导，作为学渣这一类的知识总是看一遍忘一遍，理解不了线代的几何意义。这一次刷了著名的3Blue1Brown系列视频，还有贴心up主的中文配音版。感兴趣的童鞋可以看一看，如何从几何运动角度理解线性代数。
作为学渣还是得记录一下推导过程。

1. 线性变换

$A v$
用二维矩阵举例。

在以 $\hat{i}=\begin{bmatrix}1\\0\end{bmatrix},\hat{j}=\begin{bmatrix}0\\1\end{bmatrix}$ 为基的坐标系中，向量 $\vec v =\begin{bmatrix}3\\-2\end{bmatrix} =3\cdot \hat i -2\cdot \hat j$ 。可以理解为向量 $\vec v$ 由基 $\hat i$ 拉伸3倍后，再与 $\hat j$ 反向拉伸2倍得到。
对向量 $\vec v$ 作线性变换 $A\vec v$ ，等效于对基向量做相同的变换后，再用相同的关系组和变换后的基向量，即：
$\begin{aligned} A&=\begin{bmatrix} 1 &3 \\-2 &0 \end{bmatrix}\\ Av &= A(3\cdot \hat i -2\cdot \hat j) = 3A\hat i -2 A\hat j\\ \begin{bmatrix} 1 &3 \\-2 &0 \end{bmatrix}\cdot \begin{bmatrix} 3 \\-2 \end{bmatrix}= trans(v) &=3 \cdot trans(\hat{i}) + (-2) \cdot trans(\hat{j}) \\ &= 3\begin{bmatrix} 1 \\-2 \end{bmatrix} + (-2)\begin{bmatrix} 3 \\0 \end{bmatrix}\end{aligned}$
那么A矩阵中的两列 $\begin{bmatrix} 1 \\-2 \end{bmatrix},\begin{bmatrix} 3 \\0 \end{bmatrix}$ 等价于原坐标系的基 $\hat{i}，\hat j$ 利用相同的线性变换后得到的向量。

2.行列式

$d e t (A)$
矩阵A对某个向量做线性变换，我们可以想象成对整个坐标空间的拉伸或压缩。以二维空间举例。

做线性变换前，坐标空间由基向量 $\hat{i}，\hat j$ 组成了一个单位面积；经历线性变换A后，基向量 $\hat{i}，\hat j$ 变换为 $\begin{bmatrix} 1 \\-2 \end{bmatrix} ,\begin{bmatrix} 3 \\0 \end{bmatrix}$ ，由这两个向量组成的平行四边形面积就是矩阵A的行列式 $d e t (A)$ 。
假如变换后的 $\hat{i}，\hat j$ 线性相关， $\begin{bmatrix} 1 \\1 \end{bmatrix} ,\begin{bmatrix} -1 \\-1 \end{bmatrix}$ 。相当于把原二维空间压缩到了一维的直线上。那么单位面积经变换后，面积压缩为0，此时 $d e t (A) = 0$ 。

因此行列式 $d e t (A)$ 的几何意义，就是整个坐标空间在经历A的拉伸或压缩后，单位面积/体积/空间的变化比例。

3.特征值、特征向量

$Ax=\lambda x$
A是n阶矩阵，如果 $\lambda$ 和n维非零向量 $\vec x$ 有以上关系，那么 $\lambda$ 称为A的特征值， $\vec x$ 称为A的特征向量。

根据前面的解释我们知道，A做的线性变换，是将原空间做线性变换。如果变换后的基向量间线性相关，那么变换后的空间会被降维；降维后的空间维数，被称为A的秩。
特征向量 $\vec x$ 的几何意义就在于，原空间经A线性变换后，方向没有发生变化的向量。这个向量经历的变化仅仅是被拉伸、或压缩，而被拉伸或压缩的比例就是 $\lambda$ 值。
计算时：
$\begin{aligned} Ax&=\lambda x \\(A-\lambda)x&=0 \\ \end{aligned}$
$\begin{vmatrix} a_{11}-\lambda & a_{12} &\cdots& a_{1n} \\ a_{21}& a_{22}-\lambda &\cdots& a_{1n} \\ \vdots & \vdots&&\vdots\\ a_{n1} & a_{n2} &\cdots &a_{nn} -\lambda \end{vmatrix} =0$
求解满足上述条件的 $\lambda$ 值

性质：

(1) $\lambda_1+\cdots+ \lambda_m = a_{11}+a_{22}+\cdots+a_{nn}$ ，迹
(2) $\lambda_1\cdots\lambda_m=|A|$
(3)如果 $\lambda_1,\cdots,\lambda_m$ 之间各不相等，对应的特征向量 $p_1,\cdots,p_m$ 线性无关

4.相似矩阵

$P^{-1}AP = B$
如果满足上述条件，那么A、B就是相似矩阵。

A、B其实是同一个线性变换在不同基下的矩阵，就是相似矩阵。
假设有两组不同的基，构成了两个坐标系 $O_1,O_2$ 。两个坐标系之间的坐标可以通过线性变换P，和逆向变换 $P^{-1}$ 相互转换。即 $P\cdot x_1 = x_2;P^{-1}\cdot x_2=x_1$ 。
- 假设线性变换A是以坐标系 $O_2$ 为基础的运动，但目前我只有 $O_1$ 坐标系的向量 $\vec v$ ；我们想要知道向量 $\vec v$ 在坐标系 $O_1$ 中经历A的等价变换后的结果。
- 可以让向量 $\vec v$ 先通过变换P，得到在 $O_2$ 坐标系的坐标,即 $P\cdot \vec v$ ；
- 再通过线性变换A，得到在 $O_2$ 坐标系中变换后的坐标，即 $AP \cdot \vec v$ ；
- 通过逆变换 $P^{-1}$ ，得到在 $O_1$ 坐标系中做等价变换后的坐标，即 $P^{-1}AP \cdot \vec v$
而整个过程等价于 $\vec v$ 直接在 $O_1$ 坐标系中做以 $O_1$ 为基础的等价运动，即 $B\cdot \vec v$ 。
因此A、B相似的意义是分别基于坐标系 $O_1,O_2$ 的等价运动。

性质：

如果A、B相似，则A、B的特征值相同
$|B-\lambda E|=|P^{-1}AP-\lambda P^{-1}P|=|P^{-1}(A-\lambda)P|=|A-\lambda|$

（可以想象成，不管是在哪个坐标系下做线性变换，只要是等价的变换（A、B）相似，变换后的效果是相同的。）

5.矩阵对角化

$P^{-1}AP = \Lambda$
其中 $\Lambda$ 是一个对角矩阵。对于对角矩阵 $\Lambda$ ，特征值就是对角线上的所有元素。如果A和对角矩阵 $\Lambda$ 相似，那么对角矩阵上的所有元素都是A的特征值。
性质：

如果存在 $P,P^{-1}$ ，那么P的列向量就是A的特征向量。
$\begin{aligned}AP&=P\Lambda \\ A(p_1,p_2,\cdots,p_n)&=(p_1,p_2,\cdots,p_n)\Lambda \\ &=(p_1,p_2,\cdots,p_n)\begin{bmatrix}\lambda_1&&& \\&\lambda_2&& \\&&\ddots &\\&&&\lambda_n\end{bmatrix} \\ &=(\lambda_1p_1,\lambda_2p_2,\cdots,\lambda_np_n)\end{aligned}$
即 $Ap_i = \lambda_1p_i$ ，因此 $p_i$ 是A对应 $\lambda_i$ 的特征向量。
但只有n个特征向量 $p_i$ 线性无关时， $P^{-1}$ 才存在
如果有n个值不同的 $\lambda_i$ ， $p_i$ 一定线性无关，A一定能对角化

6.对称矩阵的对角化

$A=A^T,P^{-1}AP=\Lambda$
性质：

(1) 如果 $\lambda_i,\lambda_j$ 是对称阵A的两个特征值， $p_1,p_2$ 是对应的特征向量。如果 $\lambda_1 \quad \neq \lambda_2$ ，那么 $p_1$ 和 $p_2$ 正交
$\begin{aligned} A=A^T,Ap_1 = \lambda_1p_1,Ap_2 = \lambda_1p_2\\ \lambda_1p_1^T = (\lambda_1p_1)^T = (Ap_1)^T = p_1^TA^T=p_1^TA\\ \lambda_1p_1^T p_2 = p_1^TAp_2 = \lambda_2(p_1^Tp_2)\\ (\lambda_1-\lambda_2)p_1^Tp_2 = 0\end{aligned}$
(2) 实对称矩阵，必定有正交阵P，使 $P^{-1}AP = P^TAP = \Lambda$ . (抄书，为啥我并不明白)

7.矩阵的迹

如果 $\in R^{n\times n}$ ，迹 $\sum_{i=1}^n a_{ii}$ 。
性质：

(1) $trA = trA^T$
(2) $t r (A + B) = t r A + t r B$
(3) $\cdot trA$ ，c是常数项
(4) $t r (A B) = t r (B A)$
$A=\begin{bmatrix}a_{11} & a_{12} & \cdots &a_{1n}\\ a_{21} & a_{22} & \cdots &a_{2n} \\ \vdots&\vdots&\ddots&\vdots\\ a_{n1} & a_{n2} & \cdots &a_{nn}\end{bmatrix}, B=\begin{bmatrix}b_{11} & b_{12} & \cdots &b_{1n}\\ b_{21} & b_{22} & \cdots &b_{2n} \\ \vdots&\vdots&\ddots&\vdots\\ b_{n1} & b_{n2} & \cdots &b_{nn}\end{bmatrix}$
$=\sum_{i=1}^n(AB)_{ii}=\sum_{i=1}^n\sum_{j=1}^na_{ij}b_{ji}=\sum_{j=1}^n\sum_{i=1}^nb_{ji}a_{ij}=\sum_{i=1}^n(BA)_{jj}=tr(BA)$
(5) $t r (A B C) = t r (C A B) = t r (B C A)$
(6) $\frac{\partial tr(AB)}{\partial A} = \frac{\partial tr(BA)}{\partial A} =B^T$
$\begin{aligned}tr(AB)&=\sum_{i=1}^n(AB)_{ii}=\sum_{i=1}^n\sum_{j=1}^na_{ij}b_{ji} \\ \frac{\partial tr(AB)}{\partial a_{ij}}&= b_{ji} \\ \frac{\partial tr(AB)}{\partial A} &=B^T\end{aligned}$
(7) $\frac{\partial tr(A^TB)}{\partial A}=\frac{\partial tr(BA^T)}{\partial A} =B$
(8) $\frac{\partial tr(ABA^TC)}{\partial A}=C^TAB^T +CAB$

ErinLiu虎哥的铲屎员

关注

2
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
线代特征值、特征向量、迹

最近遇到很多需要线代的数学推导，作为学渣这一类的知识总是看一遍忘一遍，理解不了线代的几何意义。这一次刷了著名的3Blue1Brown系列视频，还有贴心up主的中文配音版。感兴趣的童鞋可以看一看，如何从几何运动角度理解线性代数。作为学渣还是得记录一下推导过程。1. 线性变换AvAvAv用二维矩阵举例。在以i^=[10],j^=[01]\hat{i}=\begin{bmatrix}1\\0...
复制链接

扫一扫

专栏目录