特征值分解与奇异值分解

最新推荐文章于 2024-08-11 11:15:23 发布

知知知_了

最新推荐文章于 2024-08-11 11:15:23 发布

阅读量890

点赞数 7

分类专栏：干扰抑制文章标签： EVD SVD

本文链接：https://blog.csdn.net/qq_45732223/article/details/112383803

版权

干扰抑制专栏收录该内容

5 篇文章 7 订阅

订阅专栏

文章目录

一、特殊矩阵的基础知识

对角矩阵（ $\mathrm{diagonal\quad matrix}$ ）：所有非对角线元素全等于零的 $n$ 阶矩阵。对角矩阵是一个方阵。
对称矩阵（ $\mathrm{symmetric\quad matrix}$ ）：元素以主对角线为对称轴对应相等的矩阵。满足 $A^T=A$ ，对称矩阵是一个方阵。

对称阵总能相似对角化，对称阵不同特征值对应的特征向量两两正交。
证明

正交矩阵

正交矩阵及其性质

定义：满足 $AA^T=E$ 或者 $A^TA=E$ 的 $n$ 阶矩阵 $A$ ，其中 $E$ 为 $n$ 阶单位矩阵。
定理1： $A$ 为 $n$ 阶正交矩阵的充要条件是 $A$ 的列（行）向量组为 $R^n$ 的一组标准正交基。
定理2：设 $A, B$ 皆为 $n$ 阶正交矩阵，则
$∣ A ∣ = 1$ 或 $∣ A ∣ = - 1$
${\color{Blue}A^T=A^{-1}}$ (充要条件)
$A^T$ (即 $A^{-1}$ )也是正交矩阵
$A B$ 也是正交矩阵
定理3：方阵 $A$ 为正交矩阵的充要条件是 $A$ 的列（行）向量构成标准正交组。

对于任意矩阵 $A$ ， $A^TA$ 为对称阵
证明： $({\color {Green}A^TA})^T=A^T(A^T)^T={\color {Brown}A^TA}$
乘积的转置等于其本身，故为对称阵。
矩阵的本质是线性变换。

二、特征值分解（EigenValue Decomposition,EVD）

MATLAB中调用函数eig

1. 特征值和特征向量

设 $A$ 为 $n$ 阶矩阵，若存在数 $\lambda$ 和 $n$ 维非零向量 $X$ ，使得
$AX=\lambda X \qquad (x≠0)$
则称 $\lambda$ 是 $A$ 的一个特征值， $X$ 为 $A$ 的对应于特征值 $\lambda$ 的特征向量。

特征向量的代数含义是将矩阵乘法转换为数乘操作；

特征向量的几何含义是通过方阵 $A$ 变换只进行缩放，不改变方向。

2. 特征值分解

设矩阵 $A$ 有 $n$ 个特征值和特征向量，则
$\begin{aligned} AX_1&=\lambda_1X_1 \\ AX_2&=\lambda_2X_2 \\ &\cdots \\ AX_n&=\lambda_nX_n\\ \end{aligned}$
将上述各式写成矩阵形式
$U\Lambda \\ \quad \\ U=[X_1\quad X_2 \quad \cdots \quad X_n]_{n×n}\\ \quad \\ \Lambda=\begin{bmatrix} \lambda_1 & \\ & \lambda_2 & \\ & & \ddots & \\ & & & \lambda_n \\ \end{bmatrix}_{n×n}$
那么
$U\Lambda U^{-1}$
因此，方阵 $A$ 可以由其特征值和特征向量完全描述。
若矩阵 $A$ 为对称矩阵，则其特征向量两两正交，那么 $U$ 为正交矩阵，有 $U^{-1}=U^T$ ，此时矩阵 $A$ 可以表示为
$U\Lambda U^{-1}= U\Lambda U^T$

特征值分解只适用于方阵，然而在实际应用中，大部分矩阵都不是方阵。而奇异值分解适用于任意矩阵。

三、奇异值分解（Singular Value Decomposition,SVD）

MATLAB中调用函数svd

考虑矩阵 $A$ 是一个m×n的普通矩阵，但是 $A^TA$ 是对称阵，因此可以根据EVD来分解 $A^TA$ 。

同样的，求出 $A^TA$ 的n个特征值
$\lambda_1,\lambda_2,\cdots,\lambda_n$
以及对应的特征向量
$X_1,X_2,\cdots,X_n$
那么有
$\begin{aligned} A^TAX_1&=\lambda_1X_1 \\ A^TAX_2&=\lambda_2X_2 \\ &\cdots \\ A^TAX_n&=\lambda_nX_n\\ \end{aligned}$
此时用 $V$ 表示特征向量组成的矩阵， $V$ 为正交阵
$A^TAV= V\Lambda \\ \quad \\ V=[X_1\quad X_2 \quad \cdots \quad X_n]_{n×n}\\ \quad \\ \Lambda=\begin{bmatrix} \lambda_1 & \\ & \lambda_2 & \\ & & \ddots & \\ & & & \lambda_n \\ \end{bmatrix}_{n×n}$
那么
$A^TA= V\Lambda V^{-1}= V\Lambda V^T$

SVD分解的精髓在于找到一组正交基，使得经过A变换后还是正交基。

分析我们找到这样的正交基：
$V=[v_1,v_2,\cdots,v_n]$
则经过A变换后将这组基映射为：
$[Av_1,Av_2,\cdots,Av_n]$
要使变换后也为正交基，即两两正交：

因为两个列向量的点积可以表示为一个行向量乘以一个列向量，所以有
$Av_i\cdot Av_j=(Av_i)^TAv_j=v_i^TA^TAv_j=v_i^T\lambda_jv_j=\lambda_jv_i^Tv_j=\lambda_jv_i\cdot v_j=0$ （0为向量）

由此可知，我们找到的正交基使其经过矩阵 $A$ 映射后还是正交基。

将映射后的正交基单位化

因为
$Av_i\cdot Av_i=(Av_i)^TAv_i=v_i^TA^TAv_i=v_i^T\lambda_iv_i=\lambda_iv_i\cdot v_i=\lambda_i$
所以有
$|Av_i|^2=\lambda_i≥0$
取单位向量
$u_i=\frac{Av_i}{|Av_i|}=\frac{1}{\sqrt{\lambda_i}}Av_i$
令 $\sqrt{\lambda_i}=\sigma_i$ （奇异值）
$Av_i=u_i\sigma_i$
由此得到矩阵 $A$ 的奇异值分解
$A=U\Sigma V^T$
$U$ 是m×m的正交阵， $V$ 是n×n的正交阵， $\Sigma$ 是m×n的矩阵，对角线上的值叫作 $A$ 的奇异值。

$v_i$ 为 $A^TA$ 的特征向量，称为 $A$ 的右奇异向量， $u_i$ 为 $AA^T$ 的特征向量，称为 $A$ 的左奇异向量。
$U$ 的列由 $AA^T$ 单位化后的特征向量构成
$V$ 的列由 $A^TA$ 单位化后的特征向量构成
$\Sigma$ 的对角元素来源于 $AA^T$ 或 $A^TA$ 的特征值的平方根，并且是按从大到小的顺序排列的
下面证明 $V$ 是 $A^TA$ 的特征向量， $U$ 是 $AA^T$ 的特征向量
$\begin{aligned} A&=U\Sigma V^T \\ A^T&=V\Sigma^TU^T \\ A^TA=V\Sigma^TU^T&U\Sigma V^T=V\Sigma^2V^T=V\Lambda V^T \\ AA^T=U\Sigma V^T&V\Sigma^TU^T= U\Sigma^2U^T=U\Lambda U^T \end{aligned}$
求解SVD的步骤

求 $AA^T$ 的特征值和特征向量，用单位化的特征向量构成 $U$
求 $A^TA$ 的特征值和特征向量，用单位化的特征向量构成 $V$
将 $AA^T$ 或 $A^TA$ 的特征值求平方根，然后构成 $\Sigma$

四、特征值分解和奇异值分解的区别

奇异值分解 $A=U\Sigma V^T$
$A$ 矩阵的作用是将一个向量从 $V$ 这组正交基向量的空间旋转到 $U$ 这组正交基向量空间，并且按照 $\Sigma$ 在各个方向进行了一定的缩放，缩放因子就是各个奇异值。如果 $V$ 列向量的维度比 $U$ 大，则表示还进行了投影。

特征值分解 $U\Lambda U^T$
$A$ 矩阵的作用是在求出的两两正交的特征向量这组基上进行缩放。

特征值用来描述方阵，可看做是从一个空间到自身的映射，奇异值可以描述任意矩阵，可看做是从一个空间到另一个空间的映射。

特征值分解是针对可对角化方阵而言，而奇异值分解更通用，对于任意形状的矩阵都可以进行分解。
特征值分解表明，矩阵与某一个向量相乘，该向量仅发生缩放变换，不对向量产生旋转的效果，伸缩的比例就是特征值；奇异值分解表明，将 $A$ 矩阵右乘一个向量后，相当于对该向量从 $V$ 这组单位正交基旋转到了 $U$ 这组新的单位正交基，不仅发生了旋转，而且有相应的缩放，缩放因子就是奇异值。（本质区别）