奇异值分解（SVD）推导（从条件推理+反向证明+与特征分解的关系）

最新推荐文章于 2024-07-25 08:15:00 发布

洛克-李

最新推荐文章于 2024-07-25 08:15:00 发布

阅读量852

点赞数 3

分类专栏：机器学习算法文章标签：线性代数机器学习奇异值分解 SVD 特征值分解

本文链接：https://blog.csdn.net/qq_30232405/article/details/104653455

版权

机器学习同时被 2 个专栏收录

21 篇文章 3 订阅

订阅专栏

算法

5 篇文章 0 订阅

订阅专栏

文章目录

1. 前言
2.矩阵分析

1. 前言

最近几天一直在学习矩阵的知识，恶补了特征分解和SVD算法，发现网上很多资料都是不全的，所以想记录一下这里面的特征分解推导过程+奇异值分解（SVD）推导过程

要看懂下面的方法，可以提前看矩阵的一些基础知识：
https://blog.csdn.net/qq_30232405/article/details/104588293

特征分解的具体推导过程可以参考：
https://blog.csdn.net/qq_30232405/article/details/104588455

2.矩阵分析

2.2 奇异值分解（SVD）

特征分解因为只能用在方阵中，所以需要一个能够处理非方阵的特征分解，而奇异值分解恰好能够对非方阵进行处理。

2.2.1 SVD定理

设 $X_{n \times p}$ 的秩为 $r a n k (X) = r$ ，根据特征分解公式， $X^{\mathrm{T}}X$ 构成一个方阵，其特征值从大到小排列为 $[\lambda_1, \lambda_2, ..., \lambda_r]$ ，记 $\Lambda^{\frac{1}{2}} = diag(\lambda_1^{\frac{1}{2}}, \lambda_2^{\frac{1}{2}}, ..., \lambda_r^{\frac{1}{2}})$ 。则存在正交矩阵 $P_{p \times p}$ 和 $Q_{n \times n}$ 使得 $\Lambda^{\frac{1}{2}} P^{\mathrm{T}}$ ，其中 $P$ 的列向量组为 $X^\mathrm{T}X$ 的 $p$ 个特征值 $(\lambda_1, \lambda_2, ..., \lambda_r,0,...,0)$ 对应的特征向量组, $Q$ 的列向量组为与 $XX^\mathrm{T}$ 的 $n$ 个特征值 $(\lambda_1, \lambda_2, ..., \lambda_r,0,...,0)$ 对应的特征向量组。

2.2.2 从结论反推的证明过程

$X^\mathrm{T}X$ 是一个方阵，且为实对称矩阵，令矩阵 $P=(\alpha_1, \alpha_2,...,\alpha_r,\alpha_{r+1},...,\alpha_p)$ ，则根据方阵的特征分解公式，得到以下公式：

$\left\{ \begin{aligned} X^\mathrm{T}X \alpha_i = \lambda_i \alpha_i ~~~~ i=1,2,..,r \\ X^\mathrm{T}X \alpha_i = \vec 0 ~~~~ i=r+1,..,p\\ \tag{2-11} \end{aligned} \right.$

若要找一个 $Q=(\beta_1,...,\beta_n)$ 满足条件 $\leftrightarrow$ 满足条件的 $Q$ ，使得满足下面公式

$Q\Lambda^{\frac{1}{2}}P^{\mathrm{T}} = X \leftrightarrow Q\Lambda^{\frac{1}{2}} =XP \tag{2-12}$

将上面的公式进行化简：

$\beta_i \sqrt \lambda_i = X \alpha_i \leftrightarrow \beta_i = \frac{X \alpha_i}{\sqrt \lambda_i} ~~~~ i=1,2,...,r \tag{2-13}$

公式(2-8)此时就转化为考察如下三个问题：

1)这些 $\beta_i$ 是否分别对应了 $XX^{\mathrm{T}}$ 的特征 $\lambda_i$
2)它们是否相互两两正交
3)是否能找到其余符合条件的 $n - r$ 个特征向量与 $\beta_1,...,\beta_r$ 一起构成正交阵 $Q$

问题1)：

$XX^{\mathrm{T}}\beta_i=\frac{XX^{\mathrm{T}}X\alpha_i}{\sqrt{\lambda_i}}=\frac{X(\lambda_i\alpha_i)}{\sqrt{\lambda_i}}=\sqrt{\lambda_i}X\alpha_i=\lambda_i \beta_i, ~~i=1,...,r$
刚好可以构成特征分解公式。

问题2)：

$\forall i,j=1,2...,3 \to \beta_i^{\mathrm{T}}\beta_j=\frac{\alpha_i^{\mathrm{T} } X^{\mathrm{T}} X \alpha_j}{\sqrt{\lambda_i \lambda_j}} = \frac{\alpha_i^{\mathrm{T}}(\lambda_j \alpha_j)}{\sqrt{\lambda_i \lambda_j}} \\ = \sqrt{\frac{\lambda_j}{\lambda_i}} \alpha_i^\mathrm{T} \alpha_j = \left\{ \begin{aligned} 1 ~~~~ i=j\\ 0 ~~~~ i \neq j \end{aligned} \right.$

问题3)：只要取 $XX^\mathrm{T}$ 零空间的规范正交基 $\beta_{r+1},...,\beta_n$ 就可以满足条件。

在特征分解中，如果 $\lambda=0$ ，意味着特征向量存在于矩阵的零空间中。同时矩阵 $XX^\mathrm{T}$ 为对称矩阵，因此对称阵不同特征值对应的特征向量两两正交，也即是 $\beta_i(i=1,..,r)$ 与零空间中的特征向量正交，利用零空间中的特征向量进行扩展基，从而可以得到规范正交基 $\beta_{r+1},...,\beta_n$ 。

2.2.3 从条件正推的证明过程

$X^\mathrm{T}X$ 是一个方阵，且为实对称矩阵，令矩阵 $P=(\alpha_1, \alpha_2,...,\alpha_r,\alpha_{r+1},...,\alpha_p)$ ，则根据方阵的特征分解公式，得到以下公式：

$X^\mathrm{T}X=PDP^{\mathrm{T}}$

根据对称矩阵特征分解的性质，因此 $P$ 中任意两个列向量正交:
$X^\mathrm{T}X \alpha_i=\lambda_i \alpha_i$

$(X\alpha_i, X\alpha_j) = (X\alpha_i)^\mathrm{T}X\alpha_j \\ = \alpha_i^\mathrm{T} X^\mathrm{T} X \alpha_j \\ = \alpha_i^\mathrm{T} \lambda_j \alpha_j \\ = \lambda_j \alpha_i^\mathrm{T} \alpha_j \\ = 0$

这时候对 $\alpha_i$ 标准化：

$\beta_i = \frac{X \alpha_i}{|X \alpha_i|} = \frac{X \alpha_i}{\sqrt{\lambda_i}} \\ \to X \alpha_i = \sqrt{\lambda_i} \beta_i$

其中 $\alpha_i|$ 由下面公式可得：

$\alpha_i|^2 = (X \alpha_i)^{\mathrm{T}} X \alpha_i = \lambda_i \alpha_i^\mathrm{T} \alpha_i = \lambda_i \\ \to |X \alpha_i| = \sqrt{\lambda_i}$

最后利用扩展基定理，将向量组 $(\beta_1,...,\beta_r)$ 扩充为 Rm中的标准正交基 $(\beta_1,...,\beta_n)$ ，然后可以得到下面公式：

$X(\alpha_1, \alpha_2,...,\alpha_r,\alpha_{r+1},...,\alpha_p) = (X\alpha_1, X\alpha_2,...,X\alpha_r,0,...,0) \\ = (\sqrt{\lambda_1} \beta_1, \sqrt{\lambda_2} \beta_2,...,\sqrt{\lambda_r} \beta_r,0,...,0) \\ \to A = Q\Lambda^{\frac{1}{2}}P^{\mathrm{T}}$