线性代数学习笔记10-1：奇异值分解SVD（SVD的由来和推导、SVD与极分解、SVD的应用）

Insomnia_X

已于 2024-01-05 15:31:30 修改

阅读量1.6k

点赞数 2

分类专栏：线性代数学习笔记文章标签：线性代数学习

于 2022-09-12 18:06:02 首次发布

本文链接：https://blog.csdn.net/Insomnia_X/article/details/126651665

版权

线性代数学习笔记专栏收录该内容

43 篇文章 98 订阅

订阅专栏

回顾：

对于有n个线性无关特征向量的矩阵，可对角化 $\boldsymbol{A} =\boldsymbol{S} \boldsymbol{\Lambda} \boldsymbol{S}^{-1}$ ，特征向量矩阵 $\boldsymbol{S}$ 列向量为特征向量
对于正定矩阵，特征值都是正数，所有特征向量之间是正交的，故特征向量矩阵 $\boldsymbol{Q}$ 为正交矩阵，其对角化结果 $\boldsymbol{A} =\boldsymbol{Q} \boldsymbol{\Lambda} \boldsymbol{Q}^{T}$ （视为奇异值分解的特殊情况）
对于一般的任意矩阵，奇异值分解 $\boldsymbol{A} =\boldsymbol{U} \boldsymbol{\Sigma} \boldsymbol{V}^{T}$ ，其中 $\boldsymbol{U}$ 和 $\boldsymbol V$ 为正交矩阵

当对角化（特征值分解）不可用时，我们转而寻求奇异值分解SVD，可将其视为“广义的特征值分解”

下面将看到，奇异值分解是矩阵最终的、最好的分解
ps.本文主要从“广义的特征值分解”角度来介绍SVD，也可从几何意义上理解

奇异值分解SVD

若矩阵 $\boldsymbol{A}_{m\times n}$ 的秩为 $r$ ，行数为 $m$ ，列数为 $n$

奇异值分解SVD（Singular value decomposition）：任意矩阵可分解为 $\boldsymbol{A}_{m\times n} =\boldsymbol{U}_{m\times m} \boldsymbol{\Sigma}_{m\times n} \boldsymbol{V}^{T}_{n\times n}$ 其中正交矩阵 $\boldsymbol{U}$ 保存左奇异向量，正交矩阵 $\boldsymbol V$ 保存右奇异向量
对角矩阵 $\boldsymbol{\Sigma}$ 保存了奇异值 $\sigma$ ，并且一定有奇异值 $\sigma\geq 0$ （总是约定奇异值非负）

SVD的由来

对于方阵，其特征向量满足 $\boldsymbol{A} \mathbf{x}=\lambda \mathbf{x}$ ，矩阵形式为 $\boldsymbol{A}\boldsymbol{S}=\boldsymbol{S} \boldsymbol{\Lambda}$
在此基础上，若存在 $n$ 个无关特征向量（ $\boldsymbol{S}$ 可逆），即可获得 $\boldsymbol{A} =\boldsymbol{S} \boldsymbol{\Lambda} \boldsymbol{S}^{-1}$

对于一般的“长方形矩阵”，向量 $\boldsymbol{A} \mathbf{x}$ 和 $\mathbf{x}$ 维度直接不对齐
我们退而求其次，类比“特征向量”，定义奇异向量： $\boldsymbol{A} \mathbf{v}_{i}=\sigma_{i} \mathbf{u}_{i}, i=1, \cdots, r$
写为矩阵形式 $\begin{aligned} A V_{r \times n}&=U_{m \times r} \Sigma_{r \times r} \\ A\left[v_{1} \cdots v_{r}\right]&=\left[u_{1} \cdots u_{r}\right]\left[\begin{array}{lll} \sigma_{1} & & \\ & \ddots & \\ & & \sigma_{r}\end{array}\right] \end{aligned}$
要注意的是，由于矩阵秩 $r$ 的限制，上面只能找到 $r$ 个 $\sigma_i>0$

此即 $\mathbf U_{m\times n}\hat{\mathbf V}_{n\times r}=\hat{\mathbf U}_{m\times r}\hat{\mathbf \Sigma}_{r\times r}$ ，对应下图中的红色部分

下面将蓝色部分“填充”完整，得到正交矩阵（方阵） $\boldsymbol{U}$ 和 $\boldsymbol{V}$

剩下的奇异值 $\sigma_i=0$ ，满足关系 $\boldsymbol{A} \mathbf{v}_{i}=0(=\sigma_{i} \mathbf{u}_{i}), i=r+1, \cdots, n$
$\begin{aligned} A V_{n \times n}&=U_{m \times m} \Sigma_{m \times n} \\ A\left[v_{1} \cdots v_{r} \cdots v_{n}\right]&=\left[u_{1} \cdots u_{r} \cdots u_{m}\right]\left[\begin{array}{lll} \sigma_{1} & && \\ & \ddots && \\ & & \sigma_{r}& \\ & & & \end{array}\right]\end{aligned}$
最终，我们得到了SVD： $\mathbf A\mathbf V=\mathbf U\mathbf \Sigma\Rightarrow\mathbf A=\mathbf U\mathbf \Sigma\mathbf V^T$

正交矩阵 $\boldsymbol{V}_{n\times n}$ 对应 $\mathbf R^n$ 空间中的一组标准正交基
正交矩阵 $\boldsymbol{U}_{m\times m}$ 对应 $\mathbf R^m$ 空间中的一组标准正交基
注意，这时 $\boldsymbol{\Sigma}_{m\times n}$ 不是对角阵，但是其中蕴含了一个对角阵

奇异值分解SVD等价于：在整个 $\mathbf R^n$ 空间中，找出一组标准正交基 $\mathbf{v}_{i}$ ，且这组基经过矩阵 $\mathbf {A}$ 的线性变换后，能够生成 $\mathbf R^m$ 空间中的一组标准正交基 $\mathbf u_i$ ，且满足 $\mathbf {A}\mathbf v_i=\sigma_i \mathbf u_i$ （ $\sigma_i$ 为伸缩因子）

这里的美妙之处在于，我们找到了一组特殊的标准正交基 $\mathbf V$ ，它们经过 $\mathbf {A}$ 的线性变换后，仍得到一组标准正交基 $\mathbf U$ （ $\mathbf A\mathbf V=\mathbf U\mathbf \Sigma$ ）

实际上，而正定矩阵的对角化 $\boldsymbol{A} =\boldsymbol{Q} \boldsymbol{\Lambda} \boldsymbol{Q}^{T}$ 可以视为这里SVD的特殊情况，其 $\mathbf U=\mathbf V=\mathbf Q$
ps. 必须正定/半正定，从而特征值非负，对应这里的 $\boldsymbol{\Sigma}=\boldsymbol{\Lambda}$

如何获取 $\boldsymbol{A} =\boldsymbol{U} \boldsymbol{\Sigma} \boldsymbol{V}^{T}$ 中的 $\boldsymbol{U}$ 和 $\boldsymbol{V}$

前置知识：
矩阵 $\boldsymbol{A}^{T} \boldsymbol{A}$ 和 $\boldsymbol{A} \boldsymbol{A}^{T}$ 是对称矩阵，并且必为半正定/正定矩阵（特征值全为非负数）
当 $\mathbf A$ 列满秩 $r = n$ 时 $\boldsymbol{A}^{T} \boldsymbol{A}$ 为正定的，正定矩阵对角化结果 $\boldsymbol{A}^{T} \boldsymbol{A} =\boldsymbol{Q} \boldsymbol{\Lambda} \boldsymbol{Q}^{T}$

根据上面，SVD就是要找出两组标准正交基，满足 $\mathbf {A}\mathbf v_i=\sigma_i \mathbf u_i$ （ $\sigma_i\geq0$ 为伸缩因子），两组标准正交基分别组成了正交矩阵 $\boldsymbol{U}$ 和正交矩阵 $\boldsymbol{V}$

SVD中，我们要找正交矩阵，并且还需要非负数的奇异值，自然可以联想到对 $\boldsymbol{A}^{T} \boldsymbol{A}$ 做特征值分解/相似对角化，其中正好出现了正交矩阵和非负数的特征值

如何获取正交矩阵 $\boldsymbol{V}$
根据 $\boldsymbol{A} =\boldsymbol{U} \boldsymbol{\Sigma} \boldsymbol{V}^{T}$ 可得 $\begin{aligned} \boldsymbol{A}^{T} \boldsymbol{A} &=\boldsymbol{V} \boldsymbol{\Sigma}^{T} \boldsymbol{U}^{T} \boldsymbol{U} \boldsymbol{\Sigma} \boldsymbol{V}^{T} \\ &=\boldsymbol{V} \boldsymbol{\Sigma}^{T} \boldsymbol{\Sigma} \boldsymbol{V}^{T} \\ &=\boldsymbol{V}\left[\begin{array}{llll} \sigma_{1}^{2} & & & \\ & \sigma_{2}^{2} & & \\ & & \ddots & \\ & & & \sigma_{r}{ }^{2} \end{array}\right] \boldsymbol{V}^{T}（当\boldsymbol{\Sigma}为对角阵） \end{aligned}$ 上式就相当于正定矩阵 $\boldsymbol{A}^{T} \boldsymbol{A}$ 的相似对角化，
其中 $\sigma_i^2=\lambda_i$ 对应 $\boldsymbol{A}^{T} \boldsymbol{A}$ 的特征值（总是约定奇异值非负： $\sigma_i=\sqrt\lambda_i$ ），
$\boldsymbol{V}$ 对应对称阵 $\boldsymbol{A}^{T} \boldsymbol{A}$ 的（标准正交）特征向量
如何获取正交矩阵 $\boldsymbol{U}$ （不完全正确的做法）
类似上面，有 $\boldsymbol{A}\boldsymbol{A}^{T}=\boldsymbol{U} \boldsymbol{\Sigma} \boldsymbol{\Sigma}^{T} \boldsymbol{U}^{T}$ $\sigma_i^2$ 对应 $\boldsymbol{A}\boldsymbol{A}^{T}$ 的特征值，
$\boldsymbol{U}$ 对应正交矩阵 $\boldsymbol{A}\boldsymbol{A}^{T}$ 的（标准正交）特征向量；

$\boldsymbol{A}\boldsymbol{A}^{T}$ 为 $m$ 阶方阵（有 $m$ 个特征值）， $\boldsymbol{A}^{T}\boldsymbol{A}$ 为 $n$ 阶方阵（有 $n$ 个特征值）
实际上 $\boldsymbol{A}\boldsymbol{A}^{T}$ 与 $\boldsymbol{A}^{T}\boldsymbol{A}$ 有相同的非零特征值，不匹配的那部分都是0特征值，这与之前的推导一致
（特征值的性质： $\boldsymbol{A}\boldsymbol{B}$ 与 $\boldsymbol{B}\boldsymbol{A}$ 有相同的非零特征值；当 $\boldsymbol{A}$ 和 $\boldsymbol{B}$ 均为 $n$ 阶方阵， $\boldsymbol{A}\boldsymbol{B}$ 与 $\boldsymbol{B}\boldsymbol{A}$ 有相同特征值）
实际上，0奇异值对应的那些左/右奇异向量，也就是 $\boldsymbol{A} \boldsymbol{A}^{T}$ 和 $\boldsymbol{A}^{T} \boldsymbol{A}$ 的零空间中的正交向量
另外，若 $\boldsymbol{A}$ 为对称/反对称矩阵，则满足 $\boldsymbol{A}\boldsymbol{A}^{T}=\boldsymbol{A}^{T}\boldsymbol{A}$ ，此时 $\boldsymbol{U}=\boldsymbol{V}$

但注意，这样的做法是错误的

原因：

对于特征向量有 $\mathbf {A}\mathbf v_i=\lambda_i \mathbf v_i$ ，等式左右都是 $\mathbf v_i$ ，那么为了表达线性变换 $\mathbf {A}$ 使得特征向量 $\mathbf v_i$ 反向拉伸，会不可避免的出现 $\lambda_i$ 为负数的情况；
对于奇异向量有 $\mathbf {A}\mathbf v_i=\sigma_i \mathbf u_i$ ，等式左右分别是 $\mathbf v_i$ 和 $\mathbf u_i$ ，那么理论上当 $\sigma_i$ 为负数时，我们完全可以将其变为正数，而把负号放到 $\mathbf u_i$ 上，从而总是约定和保证 $\sigma_i$ 非负

至此就明白了，由上面方法求出的 $\mathbf{v}_i$ 和 $\mathbf{u}_i$ 有可能需要搭配负数的 $\sigma_i$ （否则 $\mathbf {A}\mathbf v_i=\sigma_i \mathbf u_i$ 不成立）
又因为我们默认 $\sigma_i>0$ ，因而获取 $\boldsymbol{U}$ 时，应当用 $\boldsymbol{A}\boldsymbol{V} =\boldsymbol{U} \boldsymbol{\Sigma}$ 来帮助确定特征向量 $\mathbf{u}_i$ 所取的符号

如何获取正交矩阵 $\boldsymbol{U}$ （正确做法）
$\mathbf u_i=\frac{\mathbf {A}\mathbf v_i}{\sigma_i}$ ，其中 $\sigma_i$ 的选择要使 $\mathbf u_i$ 标准化（长为1）

这里还有一个小问题：若把 $\mathbf u_i$ 视为上述的 $\boldsymbol{A}\boldsymbol{A}^{T}$ 的特征向量，我们还必须验证各个 $\mathbf u_i$ 互相正交
（原因：重特征值有一个特征子空间，其中任意一组基都是特征向量，不一定正交）
验证各个 $\mathbf u_i$ 互相正交：
$\mathbf{u}_{1}^{T} \mathbf{u}_{2}=\left(\frac{A \mathbf{v}_{1}}{\sigma_{1}}\right)^{T}\left(\frac{A \mathbf{v}_{2}}{\sigma_{2}}\right)=\frac{\mathbf{v}_{1}^{T} A^{T} A \mathbf{v}_{2}}{\sigma_{1} \sigma_{2}}=\frac{\mathbf{v}_{1}^{T} \sigma_{2}^2 \mathbf{v}_{2}}{\sigma_{1} \sigma_{2}}=\frac{\sigma_{2}}{\sigma_{1}} \mathbf{v}_{1}^{T} \mathbf{v}_{2}=0$

但是，当矩阵规模较大时，上述的 $\boldsymbol{A}^{T} \boldsymbol{A}$ 方法计算量太大
所以实际中并不使用上述方法求SVD，我们通过这个过程进一步理解SVD即可

SVD与极分解

$\boldsymbol{A} =\boldsymbol{U} \boldsymbol{\Sigma} \boldsymbol{V}^{T}=(\boldsymbol{U}\boldsymbol{\Sigma}\boldsymbol{U}^T) \boldsymbol{U} \boldsymbol{V}^{T}$
由此得到了一种新的分解，即“极分解”（Polar decomposition）
$\boldsymbol{A} =\boldsymbol S \boldsymbol Q$ 其中，

$\boldsymbol S=\boldsymbol{U}\boldsymbol{\Sigma}\boldsymbol{U}^T$ 为对称矩阵，对应了简单的拉伸（对称阵相似于实对角阵 $\boldsymbol{\Sigma}$ ，对应的变换仅伸缩了坐标轴）
$\boldsymbol Q=\boldsymbol{U} \boldsymbol{V}^{T}$ 为正交矩阵，对应了旋转的线性变换

几何上的意义：任意矩阵，对应的线性变换可拆分为伸缩、旋转（还有投影）

类比：复数可以表示为 $re^{j\theta}$ ，其中两项分别对应“拉伸”和“旋转”
这里的分解类似， $\boldsymbol S$ 和 $\boldsymbol Q$ 分别对应了“拉伸”和“旋转”

矩阵 $\boldsymbol{A}$ 是否可逆，决定SVD是否有0奇异值

SVD分解结果（奇异值） $\boldsymbol{A} =\boldsymbol{U} \boldsymbol{\Sigma} \boldsymbol{V}^{T}$ ，展示了矩阵 $\boldsymbol{A}$ 的各方面特征

例如 $\boldsymbol{\Sigma}=\left[\begin{array}{cc}3 & 0 \\0 & 2\end{array}\right]$ ，则 $\boldsymbol{A}$ 可逆
ps. 可逆矩阵 $r = n$ ，则 $\boldsymbol{A}^{T} \boldsymbol{A}$ 和 $\boldsymbol{A}\boldsymbol{A}^{T}$ 为正定矩阵（特征值全为正，对应 $\boldsymbol{A}$ 奇异值全为正）
$\boldsymbol{\Sigma}=\left[\begin{array}{cc}3 & 0 \\0 & -2\end{array}\right]$ ，这不是SVD，因为我们奇异值不可能为负值
$\boldsymbol{\Sigma}=\left[\begin{array}{cc}3 & 0 \\0 & 0\end{array}\right]$ ， $\boldsymbol{\Sigma}$ 秩为1，而 $\boldsymbol{U}$ 和 $\boldsymbol{V}$ 为正交的，因此 $\boldsymbol{A}$ 秩为1，不可逆；
理解[ $\boldsymbol{A}$ 不满秩则不可逆]：对矩阵做SVD $\boldsymbol{A}=\boldsymbol{U} \boldsymbol{\Sigma} \boldsymbol{V}^{T}$ ， $\boldsymbol{A}$ 行/列不满秩，则矩阵零空间有非零向量，那么就有 $\mathbf A\mathbf x=\mathbf 0$ ，进而SVD中的 $\boldsymbol{\Sigma}$ 的右下角相应出现0元素，这从根本上决定了 $\boldsymbol{A}$ 与其他矩阵相乘，不可能得到单位阵（即不可逆）

另外， $\boldsymbol{A}$ 的零空间由 $\boldsymbol{V}$ 中那些特征值为0的特征向量（即 $\mathbf v_2$ ）给出，因为此时 $\boldsymbol{A}\boldsymbol{V} =\boldsymbol{U} \boldsymbol{\Sigma}=0$
更多的，求 $\boldsymbol{A}$ 的左零空间、列空间等…也能从SVD中找到答案，详见笔记10-3

推论：矩阵行列式 $det(\boldsymbol{A})$ =特征值乘积 $\lambda_1\lambda_2...\lambda_n$ =奇异值乘积 $\sigma_1\sigma_2...\sigma_n$
原因： $det(\boldsymbol{A}) =det(\boldsymbol{U} \boldsymbol{\Sigma} \boldsymbol{V}^{T})=det(\boldsymbol{\Sigma})$ （正交矩阵行列式为±1）

SVD的应用

大型矩阵 $\boldsymbol{A}$ ，希望提取重要信息（不只是简单的找出较大的元素值），可以做SVD并从“秩1矩阵分解”的角度来看：秩1矩阵 $\sigma_1\mathbf{u}_1\mathbf{v}_1^T$ 对应了矩阵最重要的部分
奇异值分解在最小二乘法问题中有重要应用
因为在实际问题中常碰到矩阵 $\boldsymbol{A}$ 不是列满秩( $r < n$ )的状态，因此 $\boldsymbol{A}^T\boldsymbol{A}$ 不可逆（之前学过，当半正定矩阵满足 $\mathbf{x}^{T} \boldsymbol{A} \mathbf{x}=0(\mathbf{x}\neq 0)$ ，则至少有一个特征值为0），无法用之前的方法求最优解，此时需要SVD
即使是列满秩的情况，当矩阵是超大型矩阵时， $\boldsymbol{A}^T\boldsymbol{A}$ 的计算量太大，用奇异值分解SVD会帮助降低计算量

Insomnia_X

关注

2
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
线性代数学习笔记10-1：奇异值分解SVD（SVD的由来和推导、SVD与极分解、SVD的应用）

回顾：当对角化（特征值分解）不可用时，我们转而寻求奇异值分解SVD，可将其视为“广义的特征值分解”下面将看到，奇异值分解是矩阵最终的、最好的分解ps.本文主要从数学上的“广义特征值分解”角度来介绍奇异值分，实际上也可从几何意义上理解奇异值分解SVD（Singular value decomposition）：任意矩阵可分解为Am×n=Um×mΣm×nVn×nT\boldsymbol{A}_{m\times n} =\boldsymbol{U}_{m\times m} \boldsymbol{\Sigma}
复制链接

扫一扫