矩阵的特征值、特征向量、特征值分解、奇异值分解之间的关系

zefeichen66

已于 2023-04-24 11:57:27 修改

阅读量7.4k

点赞数 5

文章标签：酉矩阵奇异值分解特征值分解特征向量和特征值

于 2021-05-23 11:01:45 首次发布

本文链接：https://blog.csdn.net/u010948546/article/details/117189334

版权

本文概述了矩阵的可逆性、特征值和迹的关系，正交矩阵的性质，以及实对称矩阵的对角化过程。重点介绍了特征值分解和奇异值分解，展示了它们在几何变换和数据处理中的应用，如正定性、协方差矩阵和Hessian矩阵的理解。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

可逆矩阵

$A\cdot A^{-1}=A^{-1}\cdot A = E$

矩阵的几何意义是对一组向量进行变换，包括方向和模长的变化。而逆矩阵表示对其进行逆变化。

矩阵的特征值的和等于矩阵的迹

为什么特征值之和会等于矩阵的迹？
高次方程的韦达定理

正交矩阵

正交矩阵满足
$A^{T}\cdot A = E$ ，可得 $A^{T}=A^{-1}$ ，因此
$A^{T}\cdot A=A\cdot A^{T}=E$
正交矩阵的列向量都是单位向量，且两两正交。对于行向量也是如此。
例如正交矩阵：
$\left[ \begin{matrix} cos(\theta) & -sin(\theta) \\ sin(\theta) & cos(\theta) \end{matrix} \right]$
其转置矩阵，同时也是其逆阵
$\left[ \begin{matrix} cos(\theta) & -sin(\theta) \\ -sin(\theta) & cos(\theta) \end{matrix} \right]$

对于一个方阵 $A$ ，若其列向量相互垂直且模长为1，则 $A$ 为正交阵

实对称矩阵和正定矩阵

首先看正定矩阵的定义：
对于任意非零的向量 $x$ ，和一个对称矩阵 $A$ ，如果有
$x^{T}Ax>0$
则称矩阵 $A$ 是正定矩阵。正定矩阵的含义是：一个向量经过矩阵 $A$ 的变换后，和自身的点积大于0。也就是说，正定矩阵对应的变换不会把变换后的向量变到向量本身所垂直的平面的另一侧。具体到2维的例子就是，怎么变，变换后的向量和自身的夹角都不会大于 $90\degree$

正定矩阵一定是对称阵
对称阵不一定是正定矩阵，例如0矩阵
对称阵 $A$ 为正定的充分必要条件是：A的特征值全为正
协方差阵是实对称矩阵，可以证明其为半正定矩阵

关于正定矩阵是不是一定对称的问题

向量组等价

两个向量组可以互相线性表出，即是第一个向量组中的每个向量都能表示成第二个向量组的向量的线性组合，且第二个向量组中的每个向量都能表示成第一二个向量组的向量的线性组合。

相似矩阵与对角化

设 $A, B$ 都是 $n$ 阶矩阵，若有可逆矩阵 $P$ ，使
$P^{-1}AP=B$
则称 $A$ 与 $B$ 相似。
相似矩阵的几何意义如下：

假设一个矩阵 $C$ ，则：
$\begin{aligned} CB=CP^{-1}AP \end{aligned}$
从上式可以看出，使用 $B$ 对 $C$ 进行变化，等价于先对 $C$ 进行换基，然后进行 $A$ 变化，最后再次进行换基。相似矩阵是在两个不同的基上，对矩阵 $C$ 进行相同的变化

对 $n$ 阶矩阵 $A$ ，寻求相似变换矩阵 $P$ 使 $P^{-1}AP=\Lambda$
其中, $\Lambda$ 为对角阵，这就称为矩阵 $A$ 的对角化。

若 $A$ 为实对称，则一定可以对角化

证明参看（实）对称矩阵的相似，对角化，正定，特征值等性质的部分汇总及证明：对称阵 $A$ 可以对角化是因为：对于 $A$ 中的任意特征值 $\lambda_{1}$ ，满足其代数重数等于其几何重数，这使得上述特征值分解内容中的 $X$ 中的向量线性无关，即 $|X|\neq0$ ，因此可以写成
$=X\cdot \Lambda \Rightarrow \Lambda=X^{-1}AX$
对 $X$ 进行施密特正交化，（参看如何理解施密特（Schmidt）正交化），将 $X$ 变为正交阵 $P$ ，其中 $X$ 和 $P$ 是可以相互表示的（参看矩阵等价的几何意义），即存在一个可逆矩阵 $D$ 满足
$X = PD^{-1}$

因此 $P^{T}AP=P^{-1}AP=\Lambda$
其中 $\Lambda$ 是以 $A$ 的特征值为对角元的对角阵。

特征值分解

对于方阵 $A_{n,n}$ ，假设其有 $n$ 个特征值和特征向量，特征值分别为 ${\lambda}_{1},{\lambda}_{2},{\lambda}_{3}\cdots{\lambda}_{n}$ ，特征向量分别为 $x_{1},x_{2}, x_{3},\cdots,x_{n}$ ，因为 $A_{n,n}$ 是一个普通方阵，因此 ${\lambda}_{1},{\lambda}_{2},{\lambda}_{3}\cdots{\lambda}_{n}$ 可能出现重复的多个值，其满足如下所示：
$A\cdot x_{1}={\lambda}_{1}\cdot x_{1} \\ A\cdot x_{2}={\lambda}_{1}\cdot x_{2} \\ A\cdot x_{3}={\lambda}_{1}\cdot x_{3} \\ \vdots \\ A\cdot x_{n}={\lambda}_{1}\cdot x_{n}$
将这些方程组合到一起为：
$\begin{aligned} A\cdot X &= A\cdot [x_{1}, x_{2}, x_{3}, \cdots , x_{n}] \\ &=[A\cdot x_{1}, A\cdot x_{2}, A\cdot x_{3}, \cdots, A\cdot x_{n}] \\ &=[{\lambda}_{1}\cdot x_{1}, {\lambda}_{2}\cdot x_{2}, {\lambda}_{3}\cdot x_{3}, \cdots, {\lambda}_{n}\cdot x_{n}] \\ &=[x_{1}, x_{2}, x_{3}, \cdots, x_{n}] \cdot \left[ \begin{matrix} {\lambda}_{1} & 0 & 0 & \cdots & 0\\ 0 & {\lambda}_{2} & 0 & \cdots & 0 \\ 0 & 0 &{\lambda}_{3} & \cdots & 0 \\ \vdots & \vdots & \vdots & \ddots & 0 \\ 0 & 0 & 0 & \cdots & {\lambda}_{n} \\ \end{matrix} \right] \\ &=X\cdot \Lambda \end{aligned}$
然而因为 $∣ X ∣$ 的值可能为0，即 $X^{-1}$ 可能不存在，因此不可以写成如下形式。
$=X\cdot \Lambda \cdot X^{-1}$
如果 $A$ 是对称阵，则 $X$ 中的列向量将线性无关，因此 $X$ 是可逆矩阵，可以写成如下所示：
$=X\cdot \Lambda \cdot X^{-1}$
对于上式而言，其中 $\Lambda$ 是以 $A$ 的特征值为对角元的对角阵， $X$ 是特征值对应的特征向量，且特征向量互相正交。

对于实对称阵的特征向量，是一个基础解析

如果某个特征值的代数重数和几何重数相同，也就是其基础解析之间是互相线性无关且相互垂直的。因此对于 $X$ 中的特征向量选择的时候，使得其模长为1

由此可得
$X^{T}\cdot X =E$
$X^{T}=X^{-1}$
故可得出， $X$ 为酉矩阵
因此
$=X\cdot \Lambda \cdot X^{-1}=X\cdot \Lambda \cdot X^{T}$

进一步地：

$\Lambda =X^{-1} \cdot A \cdot X=X^{T} \cdot A \cdot X$
实现了对称阵 $A$ 的对角化。

施密特正交化：（参看如何理解施密特（Schmidt）正交化）
矩阵等价的意义：矩阵等价的几何意义

特征值分解的几何意义：将特征值分解为正交阵 $\times$ 对角阵 $\times$ 正交阵，即 $=X\cdot \Lambda \cdot X^{-1}=X\cdot \Lambda \cdot X^{T}$ 。其意义为将矩阵A对矩阵的变换，等价为旋转、伸缩、旋转这三个变化。
特征值分解也叫谱分解，其计算过程如下所示：
参看谱分解
在这里插入图片描述

在这里插入图片描述
有上述计算过程可以看出，对特征向量进行施密特正交化后的矩阵，等价于直接将特征向量进行归一化。

奇异值分解

参看奇异值分解（SVD）
奇异值分解的揭秘（一）：矩阵的奇异值分解过程

对于矩阵 $A_{m,n}$ 来说，其形状为 $(m, n)$ ，假设 $n < m$ ，即行大于列，秩为 $k$ ，则 $k < n < m$ 。

那么对于 $A^{T}A$ 来说，其形状为 $(n, n)$ 假设 $v_{i}$ 为其特征向量， $\lambda_{i}$ 为其特征值，因此满足：
$v_{i}^{T}v_{i}=1$
$A^{T}Av_{i}=\lambda_{i}v_{i}$
若 $V=[v_{1},v_{2},\cdots, v_{n}]$ ， $V$ 的形状为 $(n, n)$ ，则
$A^{T}AV=V\Lambda$
使用 $A$ 对向量 $V$ 进行变化，如下：
$AV=A[v_{1},v_{2},\cdots, v_{n}]=[Av_{1},Av_{2},\cdots, Av_{n}]$
则变化后的 $[Av_{1},Av_{2},\cdots, Av_{n}]$ ，对其进行如下处理 $(Av_{i})^{T}(Av_{j})=v_{i}^{T}A^{T}Av_{j}=v_{i}^{T}\lambda_{j}v_{j}=0$
即，变化后的方阵的列向量，互相正交。
另外 $|Av_{i}|=\sqrt{(Av_{i})^{T}(Av_{i})}=\sqrt{v_{i}^{T}A^{T}Av_{i}}=\sqrt{v_{i}^{T}\lambda_{i} v_{i}}=\sqrt{\lambda_{i}}$
令 $u_{i}=\frac{Av_{i}}{\sqrt{\lambda_{i}}}$
可以看出， $u_{i}$ 是一个列向量，其形状为 $(m, 1)$ ，则 $U=[u_{1},u_{2},\cdots,u_{n}]=[\frac{Av_{1}}{ \sqrt{\lambda_{1}}},\frac{Av_{2}}{ \sqrt{\lambda_{2}}},,\cdots, \frac{Av_{n}}{ \sqrt{\lambda_{n}}},]$
因此， $U$ 的形状为 $(m, n)$ 。其列向量是互相正交的单位向量。
下面来讨论 $U$ 中的向量的特点：
$\begin{aligned} u_{i}&=\frac{Av_{i}}{\sqrt{\lambda_{i}}} \\ \sqrt{\lambda_{i}} u_{i}&=Av_{i} \\ A^{T}Av_{i}&=\lambda_{i}v_{i} \\ AA^{T}Av_{i}&=A\lambda_{i}v_{i} \\ AA^{T}\sqrt{\lambda_{i}} u_{i}&=\lambda_{i}\sqrt{\lambda_{i}} u_{i} \\ AA^{T} u_{i}&=\lambda_{i} u_{i} \\ \end{aligned}$
由此可以看出 $u_{i}$ 是 $AA^{T}$ 的特征向量， $\lambda_{i}$ 是特征值
另外，对于
$\begin{aligned} AV&=A[v_{1},v_{2},\cdots, v_{n}] \\ &=[Av_{1},Av_{2},\cdots, Av_{n}] \\ &=[\sqrt{\lambda_{1}} u_{1}, \sqrt{\lambda_{2}} u_{2}, \cdots, \sqrt{\lambda_{n}} u_{n}] \\ &=[u_{1}, u_{2}, \cdots, u_{n}] \left[ \begin{matrix} \sqrt {\lambda}_{1} & 0 & 0 & \cdots & 0\\ 0 &\sqrt {\lambda}_{2} & 0 & \cdots & 0 \\ 0 & 0 & \sqrt{\lambda}_{3} & \cdots & 0 \\ \vdots & \vdots & \vdots & \ddots & 0 \\ 0 & 0 & 0 & \cdots & \sqrt{\lambda}_{n} \\ \end{matrix} \right] \\ &=[u_{1}, u_{2}, \cdots, u_{n}, | u_{n+1}, u_{n+2}, \cdots u_{m}] \left[ \begin{array}{ccccc} \sqrt {\lambda}_{1} & 0 & 0 & \cdots & 0 \\ 0 &\sqrt {\lambda}_{2} & 0 & \cdots & 0 \\ 0 & 0 & \sqrt{\lambda}_{3} & \cdots & 0 \\ \vdots & \vdots & \vdots & \ddots & 0 \\ 0 & 0 & 0 & \cdots & \sqrt{\lambda}_{n} \\ \hline 0&0&0&0&0 \\ \vdots&\vdots&\vdots&\vdots&\vdots& \\ 0&0&0&0&0 \\ \end{array} \right] \\ &=U\Sigma \end{aligned} \\$
其中 $U=[u_{1}, u_{2}, \cdots, u_{n}, | u_{n+1}, u_{n+2}, \cdots u_{m}]$
$\Sigma= \begin{array}{ccccc} \sqrt {\lambda}_{1} & 0 & 0 & \cdots & 0 \\ 0 &\sqrt {\lambda}_{2} & 0 & \cdots & 0 \\ 0 & 0 & \sqrt{\lambda}_{3} & \cdots & 0 \\ \vdots & \vdots & \vdots & \ddots & 0 \\ 0 & 0 & 0 & \cdots & \sqrt{\lambda}_{n} \\ \hline 0&0&0&0&0 \\ \vdots&\vdots&\vdots&\vdots&\vdots& \\ 0&0&0&0&0 \\ \end{array}$
其中 $U$ 的形状为 $(m, n)$ ， $\Sigma$ 的形状也是 $(m, n)$
因为 $U$ 的前 $n$ 个列向量是 $AA^{T}$ 的特征向量，因此对于后添加进去的 $[u_{n+1}, u_{n+2}, \cdots u_{m}]$ ，并无特殊要求，也可以取为 $AA^{T}$ 的特征向量，因此整个矩阵 $U$ 即是矩阵 $AA^{T}$ 的特征向量集合。又因为 $AA^{T}$ 是对称阵，因此 $U$ 是正交阵。同时， $V$ 也是正交阵。
$\begin{aligned} AV&=U\Sigma\\ A&=U\Sigma V^{-1}=U\Sigma V^{T} \end{aligned}$
奇异值分解的计算过程参看奇异值分解（SVD）