【泛学内容】奇异值(SVD)分解_奇异值分解-CSDN博客

本文链接：https://blog.csdn.net/m0_59701064/article/details/138632073

奇异值分解

一、特征值分解

必要条件

待分解矩阵 $A_{n \times n}$ 为方阵，同时具有n个线性无关的特征向量，可进行相似对角化（特征值分解）。

定理内容

记特征值为 $\lambda_{1} \le \lambda_{2}\le ... \le \lambda_{n}$ ，对应的n个线性无关的特征向量为 $v_{1},v_{2},...,v_{n}$ ，则存在正交矩阵 $V$ ，满足以下式子。其中 $V$ 为特征向量按列排列，且为正交矩阵，即 $V=(v_{1},v_{2},...,v_{n})$ 。

$V^{-1}AV=V^{T}AV=\Lambda = \begin{pmatrix} \lambda\_{1} & & \\\ & ... & \\\ & & \lambda\_{n} \end{pmatrix}$

上式对 $A$ 进行了相似对角化，通过可逆矩阵 $V$ 来得到 $A$ 的相似矩阵 $\Lambda$ 。也相当于为 $A$ 进行了特殊的表达，即转化为 $A=V\Lambda V^{-1}$ ，从而将A这个线性变换转化为“旋转-缩放-旋转”的形式。

简要分析

考虑到对于任何一个方阵 $A_{n \times n }$ ，可以将其看作n维空间中的一个线性变换，它的一个特征向量 $\hat{v}$ 以及对应的特征值 $\lambda$ ，可以看作为在经过线性变换 $A$ 后，特征向量 $\hat{v}$ 的方向并未发生改变，只是进行了缩放比为 $\lambda$ 的缩放。即满足 $\hat{v} = \lambda \hat{v}$ 。

若能够找到n组特征向量与特征值，且这n个特征向量相互线性无关，那么将这n个特征向量组成一个基则能够保证在该基之下，线性变换A能够与一个对角矩阵相似（即A在V基下的线性变换为一个对角阵）。具体原因在于： $A(v_{1},v_{2},...,v_{n})= \begin{pmatrix} \lambda_{1} & & \\\ & ... & \\\ & & \lambda_{n} \end{pmatrix} (v_{1},v_{2},...,v_{n})$ 。而对于基 $V$ ，可以进行正交化，最终将矩阵 $A$ 进行分解得到“正交阵-对角阵-正交阵”的形式，即将线性变换分解为“旋转-缩放-旋转”。（正交阵带来的正交变换不改变距离、夹角、内积等性质，即为旋转；对于对角阵，只对各基方向进行成比例缩放）

二、奇异值分解

定义

将一个非零的 $\times n$ 实矩阵 $A$ ， $\in R^{m \times n}$ ，表示为以下三个实矩阵的乘积形式的运算，即矩阵的因子分解。其中 $U$ 时 $m$ 阶正交矩阵， $V$ 时 $n$ 阶正交矩阵， $\Sigma$ 是由降序排序的非负的对角线元素组成的 $\times n$ 矩形对角矩阵。
$A=U\Sigma V^{T}$
满足：
$UU^T=I \\\ VV^T=I \\\ \Sigma = diag(\sigma_{1},\sigma_{2},...,\sigma_{p})\\\ \sigma_{1} \ge \sigma_{2} \ge ... \ge \sigma_{p} \ge 0 \\\ p \le min(m,n)$
则 $\sigma_i$ 为矩阵 $A$ 的奇异值， $U$ 的列向量称为左奇异向量， $V$ 的列向量称为右奇异向量。

奇异值分解存在定理

任意给定一个实矩阵，其奇异值分解一定存在。证明见《统计学习原理》P273。

紧奇异值分解与截断奇异值分解

紧奇异值分解是与原始矩阵 $A$ 等秩的奇异值分解，截断奇异值分解是比原始矩阵 $A$ 低秩的分解。

具体地，截断奇异值分解中，只取最大的k个奇异值（ $k < R (A)$ ）来组成 $\Sigma$ 。

举例：

对于以下矩阵 $A$ ，其秩为3。

$\begin{pmatrix} 1 & 0 & 0 & 0 \\\ 0 & 0 & 0 & 4 \\\ 0 & 3 & 0 & 0 \\\ 0 & 0 & 0 & 0 \\\ 2 & 0 & 0 & 0 \\\ \end{pmatrix}$

$A$ 的紧奇异值分解为： $A=U_r \Sigma_r V_r^T$ ，其中：

$U_r= \begin{pmatrix} 0 & 0 & \sqrt{0.2} \\\ 1 & 0 & 0 \\\ 0 & 1 & 0 \\\ 0 & 0 & 0 \\\ 0 & 0 & \sqrt{0.8} \\\ \end{pmatrix}, \Sigma_r = \begin{pmatrix} 4 & 0 & 0 \\\ 0 & 3 & 0 \\\ 0 & 0 & \sqrt{5} \\\ \end{pmatrix}, V_r^T = \begin{pmatrix} 0 & 0 & 0 & 1 \\\ 0 & 1 & 0 & 0 \\\ 1 & 0 & 0 & 0 \\\ \end{pmatrix}$

$A$ 的截断奇异值分解为： $A=U_k\Sigma_kV_r^T$ ，其中：

$U_r= \begin{pmatrix} 0 & 0 \\\ 1 & 0 \\\ 0 & 1 \\\ 0 & 0 \\\ 0 & 0 \\\ \end{pmatrix}, \Sigma_r = \begin{pmatrix} 4 & 0 \\\ 0 & 3 \\\ \end{pmatrix}, V_r^T = \begin{pmatrix} 0 & 0 & 0 & 1 \\\ 0 & 1 & 0 & 0 \\\ \end{pmatrix}$

相当于缺失了一部分信息，但也可能够根据剩余的奇异值还原原有矩阵的信息，实现一定程度的数据压缩。例如以上截断奇异值分解可以进行以下还原：

$A_2=U_2\Sigma_2V_2^T= \begin{pmatrix} 0 & 0 & 0 & 0 \\\ 0 & 0 & 0 & 4 \\\ 0 & 3 & 0 & 0 \\\ 0 & 0 & 0 & 0 \\\ 0 & 0 & 0 & 0 \\\ \end{pmatrix}$

几何含义

对于线性变换 $A=U\Sigma V^T$ ，即等价于经过旋转 $V^T$ ，缩放 $\Sigma$ ，旋转 $U$ 。 $U$ 和 $V$ 都是正交阵，对应的线性变化仅为旋转。如下图所示。

在这里插入图片描述

计算方法

给定 $\times n$ 的矩阵 $A$ ，进行奇异值分解 $A=U\Sigma V^{T}$ 。

（1）求 $A^TA$ 的特征向量和特征值。

计算对称矩阵 $W=A^TA$ ，有以下特征方程：
$(W-\lambda E)x=0$
求解特征方程可得特征值 $\lambda_{i}$ ，将特征值从大到小进行排列： $\lambda_{1} \ge \lambda_{2} \ge ... \ge \lambda_{n} \ge 0$ 。带入特征方程能够得到对应的的特征向量。

（2）求解n阶的正交矩阵 $V$

将求得的特征向量进行单位化，得到单位特征向量 $v_1,v_2,...,v_n$ ，构成n阶的正交矩阵 $V=[v_1,v_2,...,v_n]$ 。

（3）求 $\times n$ 对角阵 $\Sigma$

计算 $A$ 的奇异值：
$\sigma_i=\sqrt{\lambda_i} \ , i=1,2,...,n$
,那么可以构造出 $\Sigma$ ，主对角线的元素为奇异值，其余为0。
$\Sigma=diag(\sigma_1,\sigma_2,...,\sigma_n)$
（4）求m阶的正交矩阵 $U$

对A的前r个正奇异值，令 $u_j=\frac{1}{\sigma_j}Av_j,j=1,2,..,r$ 。得到部分正交矩阵：
$U_1=[u_1 \ u_2 \ ... \ u_r]$
求 $A^T$ 的零空间中的一组标准正交基 ${u_{r+1},u_{r+2},...,u_{m}}$ ，记为 $U_2$ 。