矩阵的奇异值分解

最新推荐文章于 2024-06-28 15:10:06 发布

fo-in

最新推荐文章于 2024-06-28 15:10:06 发布

阅读量1w

点赞数 16

分类专栏：数理基础文章标签：矩阵算法线性代数

本文链接：https://blog.csdn.net/WZX_Hello/article/details/125871002

版权

数理基础专栏收录该内容

3 篇文章

订阅专栏

本文详细介绍了奇异值分解（SVD）的基本概念，包括矩阵的SVD形式、数值计算过程以及SVD的几何含义。通过实例解释了拉伸和旋转的线性变换，并探讨了SVD在数据压缩和图像处理中的应用。此外，还讨论了SVD在确定矩阵秩和信息重要性方面的作用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1. 前言

假设矩阵 $\mathbf{A}$ 是一个 $\times N$ 大小的矩阵。对其进行奇异值分解后可以得到：
$\mathbf{A_{(m \times n)} = U_{(m \times m)} \Sigma_{(m \times n)} V^T_{(n \times n)}}$
其中矩阵 $\mathbf{\Sigma}$ 是准对角矩阵，其对角元素就是奇异值。矩阵 $\mathbf{U}$ 和 $\mathbf{V}$ 都是酉矩阵，一条重要的性质就是，其列向量都是两两正交的单位向量（模为1，对应相乘等于0）.

2. 数值计算

在计算时，首先我们考虑计算矩阵 $\mathbf{V}$ 和准对角阵 $\mathbf{\Sigma}:$

首先计算 $\mathbf{A^TA}$ ，因为已知矩阵 $\mathbf{A}$ 大小为 $\times N$ ，因此 $\mathbf{A^TA}$ 是大小为 $\times N$ 的方阵，可以进行特征分解，求得 $N$ 个特征值 $\lambda_i(i = 1, ..., N)$ 和单位化的特征向量 $\bm{\alpha_i}(i = 1, ..., N)$ .
因此，矩阵 $\mathbf{V}$ 和准对角阵 $\mathbf{\Sigma}$ 可以得到为：
$\begin{aligned} \mathbf{V} &= (\bm{\alpha_1\ \alpha_2\ \cdots\ \alpha_N}) \\ \mathbf{\Sigma} &= \begin{pmatrix} \sqrt{\lambda_1} & 0 & \cdots & 0\\ 0 & \sqrt{\lambda_2} & \cdots & 0\\ \vdots & \vdots & \ddots & \vdots\\ 0 & 0 & \cdots & \sqrt{\lambda_N} \end{pmatrix} \end{aligned}$

注意：矩阵 $\mathbf{\Sigma}$ 不一定是方阵，但是也是只有主对角线上有值，其余填0即可；
另外，矩阵 $\mathbf{\Sigma}$ 和矩阵 $\mathbf{V}$ 中的元素一定要以特征值-特征向量对应书写，顺序不可错乱。

计算矩阵 $\mathbf{U}$ ：

计算 $\mathbf{AA^T}$ ，因为已知矩阵 $\mathbf{A}$ 大小为 $\times N$ ，因此 $\mathbf{AA^T}$ 是大小为 $\times M$ 的方阵，可以进行特征分解，求得 $M$ 个特征值 $\gamma_i(i = 1, ..., M)$ 和单位化的特征向量 $\bm{\theta_i}(i = 1, ..., M)$ . 由此，我们可以确定，矩阵 $\mathbf{U}$ 是由 $M$ 个单位特征向量组成的，但是向量的排列顺序还不确定，接下来就是要确定这件事；

$\begin{aligned} \because \mathbf{V}是正交矩阵 \\ \therefore \mathbf{V^T} = \mathbf{V^{-1}} \\ \Rightarrow \mathbf{A} = \mathbf{U \Sigma V^{-1}}\\ \Rightarrow \mathbf{AV} = \mathbf{U \Sigma} \end{aligned}$

计算出矩阵 $\mathbf{AV}$ ，再由于矩阵 $\mathbf{\Sigma}$ 只有主对角线上有元素，可以根据简单的除法，对应计算出矩阵 $\mathbf{U}$ 中前几列对应的元素。由此可以确定特征向量在矩阵 $\mathbf{U}$ 中的对应位置关系，然后写出矩阵 $\mathbf{U}$ .
$\mathbf{A = U \Sigma V^{T}}$ (一定要记得矩阵 $\mathbf{V}$ 最后还有个转置运算)

3. 奇异值分解的原理

在上述数值计算过程中有一个问题，就是为什么矩阵 $\mathbf{A^TA}$ 的特征向量就组成矩阵 $\mathbf{V}$ ，特征值组成矩阵 $\mathbf{\Sigma}$ ，而矩阵 $\mathbf{AA^T}$ 的特征向量组成矩阵 $\mathbf{U}$ 呢？接下来就解释这个问题：

为什么矩阵 $\mathbf{A^TA}$ 的特征向量就组成矩阵 $\mathbf{V}$ ，特征值开根号组成矩阵 $\mathbf{\Sigma}$ ？
$\mathbf{A = U \Sigma V^T}\\ \mathbf{A^T = V \Sigma^T U^T}=\mathbf{V \Sigma^T U^{-1}}(因为\mathbf{U}是正交阵)\\ \Rightarrow \mathbf{A^TA} = \mathbf{V \Sigma^T U^{-1} U \Sigma V^T} = \mathbf{V \Sigma^2 V^{-1}}\\ \Rightarrow (\mathbf{A^TA})\mathbf{V} = \mathbf{V \Sigma^2}$
由此可以看到，矩阵 $\mathbf{V}$ 中包含的列向量实际上就是矩阵 $(\mathbf{A^TA})$ 的特征向量，而矩阵 $\mathbf{\Sigma}$ 中的对角值，就是矩阵 $(\mathbf{A^TA})$ 的 $\sqrt{特征值}$ .
为什么矩阵 $\mathbf{AA^T}$ 的特征向量组成矩阵 $\mathbf{U}$ 呢？
显然，这个问题和上面同理。

4. 例题

在这里插入图片描述

5. 奇异值分解的几何含义

5.1 数据的线性变换——拉伸

例如，有一组数据 $\mathbf{D}$ ， $\mathbf{D}$ 表示为如下的矩阵：
$\mathbf{D} = \begin{bmatrix} x_1 & x_2 & x_3 & x_4\\ y_1 & y_2 & y_3 & y_4 \end{bmatrix}$
有一矩阵 $\mathbf{S}=\begin{bmatrix} 2 & 0\\ 0 & 1 \end{bmatrix}$ 作用在该数据矩阵 $\mathbf{D}$ 上，可以得到：
$\mathbf{SD} = \begin{bmatrix} 2 & 0\\ 0 & 1 \end{bmatrix} \begin{bmatrix} x_1 & x_2 & x_3 & x_4\\ y_1 & y_2 & y_3 & y_4 \end{bmatrix}= \begin{bmatrix} 2x_1 & 2x_2 & 2x_3 & 2x_4\\ y_1 & y_2 & y_3 & y_4 \end{bmatrix}$

这是矩阵运算中一条重要的性质:矩阵 $\mathbf{S}$ 是由 $\times 2$ 大小单位矩阵经由初等变化而来的，当数据矩阵 $\mathbf{D}$ 左乘上一个单位矩阵的初等变换等于对 $\mathbf{D}$ 进行对应的行变换。

矩阵 $\mathbf{D}$ 左乘一个 $\mathbf{S}$ 相当于将基底由默认的 $\begin{bmatrix} 1\\ 0 \end{bmatrix}$ 和 $\begin{bmatrix} 0\\ 1 \end{bmatrix}$ 换为了 $\begin{bmatrix} 2\\ 0 \end{bmatrix}$ 和 $\begin{bmatrix} 0\\ 1 \end{bmatrix}$ （即矩阵 $\mathbf{S}$ 的列向量），所以数据进行了拉伸。

5.2 数据的线性变换——旋转

换作一矩阵 $\mathbf{R} = \begin{bmatrix} cos(\theta) & -sin(\theta)\\ sin(\theta) & cos(\theta) \end{bmatrix}$ 作用与数据矩阵 $\mathbf{D}$ 上( $\mathbf{D}$ 左乘 $\mathbf{R}$ )，可得：
$\mathbf{RD} = \begin{bmatrix} cos(\theta) & -sin(\theta)\\ sin(\theta) & cos(\theta) \end{bmatrix} \begin{bmatrix} x_1 & x_2 & x_3 & x_4\\ y_1 & y_2 & y_3 & y_4 \end{bmatrix}$

同理，矩阵 $\mathbf{D}$ 左乘一个 $\mathbf{R}$ 相当于将基底由默认的 $\begin{bmatrix} 1\\ 0 \end{bmatrix}$ 和 $\begin{bmatrix} 0\\ 1 \end{bmatrix}$ 换为了 $\begin{bmatrix} cos(\theta)\\ sin(\theta) \end{bmatrix}$ 和 $\begin{bmatrix} -sin(\theta)\\ cos(\theta) \end{bmatrix}$ （即矩阵 $\mathbf{R}$ 的列向量），显然与原基底相比，作用后的基底逆时针旋转了 $\theta$ 角度。相应地，数据点也是逆时针旋转 $\theta$ 角度。

5.3 奇异值分解的几何意义

观察矩阵奇异值分解的形式：
$\mathbf{A_{(m \times n)} = U_{(m \times m)} \Sigma_{(m \times n)} V^T_{(n \times n)}}$
由前面的介绍可以知道，矩阵 $\mathbf{U}$ 和矩阵 $\mathbf{V}$ 都是酉矩阵。而酉矩阵有如下性质：

若矩阵 $\mathbf{A}$ 为酉矩阵，则

性质1： $\mathbf{A^HA=E}$ 且 $\mathbf{AA^H=E}$ ，即表明酉矩阵行与行、列与列之间都是正交的，且各行、各列都是单位向量；
性质2： $\mathbf{A^H=A^{-1}}$ 且共轭转置矩阵和逆矩阵也都是酉矩阵

因此矩阵 $\mathbf{U}$ 和矩阵 $\mathbf{V^T}$ 的每一列都是单位向量，且列与列之间相互正交，可以代表旋转变换的基底；矩阵 $\mathbf{\Sigma}$ 只有主对角线上有元素，可以代表拉伸（或收缩）变换的基底。

实际上，单位正交矩阵就可以看做是一组旋转变换的基底；对角矩阵可以看做是拉伸变换的基底。

因此，但任意的矩阵 $\mathbf{A}$ 作用于数据矩阵时，相当于将数据坐标点先进行旋转变换，再进行拉伸变换，最后再进行一次旋转变换。对于任意一个给定的变换 $\mathbf{A}$ ，都可以拆解成一个旋转、伸缩、再旋转的变换。奇异值本身的数值，代表了单位超球体经变换后成为的超椭球体的每条半轴的长度。

6. 奇异值分解的应用价值

假设矩阵 $\mathbf{A}$ 的奇异值分解为：
$\begin{aligned} \mathbf{A_{(m \times n)}} &= \mathbf{U_{(m \times m)} \Sigma_{(m \times n)} V^T_{(n \times n)}}\\ &= \begin{bmatrix} \mathbf{u_1} & \mathbf{u_2} & \cdots & \mathbf{u_m} \end{bmatrix} \begin{bmatrix} \lambda_1^{\frac{1}{2}} & & \\ & \lambda_2^{\frac{1}{2}} & \\ & & \cdots \end{bmatrix} \begin{bmatrix} \mathbf{v^T_1}\\ \mathbf{v^T_2}\\ \vdots \\ \mathbf{v^T_n} \end{bmatrix} \end{aligned}$
此处 $\mathbf{u_i}$ 和 $\mathbf{v_i}$ 均为列向量（秩一矩阵）， $\mathbf{\Sigma}$ 矩阵中存储的奇异值 $\lambda^{\frac{1}{2}}_i$ 按照由大到小的顺序对角排列: $\lambda_1 > \lambda_2 > \cdots > \lambda_{min(m \times n)}$ 。
如下图运算步骤所示，我们实际上可以将矩阵 $\mathbf{A}$ 的奇异值分解再写为众多的秩一矩阵积的和的形式：
请添加图片描述
即，矩阵 $\mathbf{A}=\sigma_1\mathbf{u_1}\mathbf{v^T_1}+\sigma_2\mathbf{u_2}\mathbf{v^T_2}+\cdots+\sigma_r\mathbf{u_r}\mathbf{v^T_r}$ (r表示矩阵 $\mathbf{\Sigma}$ 的秩)。奇异值往往代表着矩阵中隐含信息的重要程度，奇异值越大，信息越重要。因此，可以根据奇异值分解来进行数据压缩。例如，矩阵 $\mathbf{A}$ 代表一张高清图片，但是碍于存储大小的限制，需要对图片进行压缩，那么我们就可以对图像矩阵 $\mathbf{A}$ 进行奇异值分解，然后仅保留分解后奇异值大的 $k$ （ $k << r$ ）个部分，构成一个新的图片矩阵 $\mathbf{A'}$ 即： $\mathbf{A'}=\sigma_1\mathbf{u_1}\mathbf{v^T_1}+\cdots+\sigma_k\mathbf{u_k}\mathbf{v^T_k}$ 。此时即完成了对图片的压缩。