奇异值分解SVD的理解与应用

最新推荐文章于 2024-04-20 01:50:36 发布

DataDog

最新推荐文章于 2024-04-20 01:50:36 发布

阅读量6.6k

点赞数 7

本文链接：https://blog.csdn.net/ab_use/article/details/50433635

版权

机器学习同时被 3 个专栏收录

3 篇文章 0 订阅

订阅专栏

数据挖掘

3 篇文章 0 订阅

订阅专栏

SVD

2 篇文章 0 订阅

订阅专栏

本文内容是基于作者当前对奇异值分解svd的了解，不够全面，有不妥的地方还望各位读者指出。作者也会在进一步了解svd的过程中，不断更新本文。

为更好的理解这篇文章，现在这里列出几个文中出现的概念，想要更深的理解这些概念，可以看我的另一篇文章：关于特征值的理解。

向量的内积：两向量 $a = [a_1, a_2,…, a_n]$ 和 $b = [b_1, b_2,…, b_n]$ ,其内积为 $a·b=a_1b_1+a_2b_2+……+a_nb_n$ 。
特征值与特征向量：对一个 $m\times m$ 矩阵 $A$ 和向量 $x$ ，如果存在λ使得下式成立， $Ax＝λx$ ，则称 $\lambda$ 为矩阵 $A$ 的特征值， $x$ 称为矩阵的特征向量。
对角矩阵：对角矩阵是除对角线外所有元素都为零的方阵。
正交矩阵：正交是一个方块矩阵V，行与列皆为正交的单位向量，即 $V_{n\times n}V_{n\times n}^T＝I_n$ ，使得该矩阵的转置矩阵为其逆矩阵， $V^T＝V^{-1}$ 。

直接进入正题，矩阵当中有一个非常著名的理论，即：

一个 $n\times n$ 的对称矩阵 $A$ 可以分解为： $A=VDV^T$ 。其中， $V$ 是一个 $n\times n$ 正交矩阵，并且列向量是矩阵 $A$ 的特征向量； $D$ 是一个 $n\times n$ 对角矩阵，并且对角线上的值为对应特征向量的特征值。

上面的理论是针对一个 $n\times n$ 的对称矩阵，那么对于任意的一个 $m\times n$ 的矩阵 $A$ ，有没有类似的表达方法呢。答案是肯定的，svd正是用来解决这个问题的。

对任意一个 $m\times n$ 的矩阵 $A$ ，可以将其分解为： $A＝USV^T$ 。其中 $U$ 是一个 $m\times m$ 的正交矩阵； $S$ 是一个 $m\times n$ 的矩阵，其主对角元素 $\geq0$ ，非主对角元素均为0； $V$ 是一个 $n\times n$ 的正交矩阵。

当 $m>n$ 时当 $m<n$ 时
$S = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ σ 1 00 ⋮ 0 0 σ 2 0 ⋮ 0 00 σ 3 ⋮ 0 ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥$ $S= \left[ \begin{matrix} \sigma_1 & 0 & 0 \\ 0 & \sigma_2 & 0 \\ 0 & 0 & \sigma_3 \\ \vdots & \vdots & \vdots \\ 0 & 0 & 0 \end{matrix} \right]$ $S = ⎡ ⎣ ⎢ σ 1 00 0 σ 2 0 00 σ 3 \dots \dots \dots 000 ⎤ ⎦ ⎥$ $S= \left[ \begin{matrix} \sigma_1 & 0 & 0 & \cdots & 0 \\ 0 & \sigma_2 & 0 & \cdots & 0 \\ 0 & 0 & \sigma_3 & \cdots & 0 \end{matrix} \right]$

关于svd的证明过程，似乎更多是数值上的工作，本文想给出更多intuitive上的理解。想要了解证明的可以参考这篇论文：Kalman D. A singularly valuable decomposition: the SVD of a matrix。

这样，对任意一个矩阵，我都可以分解成三个矩阵的内积。让我们看一下它有什么神奇的性质。

$A A T ＝ U S V T V S T U T ＝ U S S T U T ＝ U D U T (1)$ $AA^T＝USV^TVS^TU^T ＝ USS^TU^T ＝ UDU^T \tag1$
由于 $V$ 是一个正交矩阵， $V^T＝V^{-1}$ ，所以 $V^T＊V＝I$ 。 $S$ 只有主对角元素不为0，那么 $SS^T$ 的结果为一个 $m\times m$ 的对角矩阵 $D$ 。而虽然 $A$ 是任意的一个 $m\times n$ 的矩阵，但 $AA^T$ 是一个 $m\times m$ 的对称矩阵。这样一看， $AA^T=UDU^T$ 是不是和前面那个理论非常相似。那么U的列向量应该是对称矩阵 $AA^T$ 的特征向量， $D$ 应该是一个对角矩阵，且对角线上值是对称矩阵 $AA^T$ 的特征值。

$A T A ＝ V S T U T U S V T ＝ V S T S V T ＝ V W V T (2)$ $A^TA＝VS^TU^TUSV^T ＝ VS^TSV^T ＝ VWV^T \tag2$
同样， $V$ 的列向量则是对称矩阵 $A^TA$ 的特征向量,而 $W$ 则是一个 $n\times n$ 的对角矩阵。这里W和D实际上是相同的，只是对角线上后面的0的数量不一样。

$W n \times n = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ σ 21 00 ⋮ 0 0 ⋱ 0 ⋮ 0 00 σ 2 k ⋮ 0 \dots \dots \dots ⋱ 0 00000 ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥$ $W_{n\times n}= \left[ \begin{matrix} \sigma_1^2 & 0 & 0 & \cdots & 0 \\ 0 & \ddots & 0 & \cdots & 0 \\ 0 & 0 & \sigma_k^2 & \cdots & 0 \\ \vdots & \vdots & \vdots & \ddots & 0 \\ 0 & 0 & 0 & 0 & 0 \end{matrix} \right]$ $D m \times m = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ σ 21 00 ⋮ 0 0 ⋱ 0 ⋮ 0 00 σ 2 k ⋮ 0 \dots \dots \dots ⋱ 0 00000 ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥$ $D_{m\times m}= \left[ \begin{matrix} \sigma_1^2 & 0 & 0 & \cdots & 0 \\ 0 & \ddots & 0 & \cdots & 0 \\ 0 & 0 & \sigma_k^2 & \cdots & 0 \\ \vdots & \vdots & \vdots & \ddots & 0 \\ 0 & 0 & 0 & 0 & 0 \end{matrix} \right]$

可以看出，矩阵 $S$ 主对角线上的值，实际上是对称矩阵 $AA^T$ 或 $A^TA$ 特征值的平方根。

所以，实际上svd是一个矩阵分解方法，对于任意一个 $m\times n$ 的矩阵 $A$ ，svd都可以将其分解成为 $A＝USV^T$ 。其中矩阵U的列向量是对称矩阵 $AA^T$ 的特征向量，称作左奇异矩阵；矩阵 $V$ 的的列向量是对称矩阵 $A^TA$ 的特征向量； $S$ 是一个 $m\times n$ 的矩阵，主对角线上的值是对称矩阵 $AA^T$ 或 $A^TA$ 特征值的平方根，称作奇异值，且非对角线上的值为0.

不知道写到这里，大家是不是对svd有了一个比较具体的印象。然而，上面只是从数学上解释了svd的构成，我们好奇的是，从很多地方，我们都听到了svd，即使如上面所述，它长的是这个样子，但是我们它到底可以用来做什么事情呢？

下面我们举几个svd的实际应用，加深我们对它的理解。

1）有损的数据压缩
假设我们有一个 $m\times n$ 的矩阵 $A$ ，它表示一组数据，有 $n$ 个样本，每个样本的维度为 $m$ ，它包含了一定的信息。而通过svd，我们可以对矩阵 $A$ 进行分解： $A＝USV^T$ 。将矩阵展开，可以表示为 $A＝\sigma_1u_1v_1^T ＋ \sigma_2u_2v_2^T ＋… ＋ \sigma_ku_kv_k^T$ ，是 $k$ 个部分的组合， $k$ 为矩阵 $S$ 当中，对角线上不为0的个数。可以认为，每一个部分包含了原数据的部分信息，合在一起组成了整个数据。

$U m \times m = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ u 11 u 12 ⋮ u 1 m u 21 u 22 ⋮ u 2 m \dots \dots ⋮ \dots u m 1 u m 2 ⋮ u m m ⎤ ⎦ ⎥ ⎥ ⎥ ⎥, u i = [u i 1, u i 2, . . ., u i m] T$ $U_{m\times m}= \left[ \begin{matrix} u_{11} & u_{21} & \cdots & u_{m1} \\ u_{12} & u_{22} & \cdots & u_{m2} \\ \vdots & \vdots & \vdots & \vdots \\ u_{1m} & u_{2m} & \cdots & u_{mm} \end{matrix} \right] , u_i=[u_{i1},u_{i2},...,u_{im}]^T$

$S m \times n = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ σ 1 00 ⋮ 0 0 ⋱ 0 ⋮ 0 00 σ k ⋮ 0 \dots \dots \dots ⋱ 0 00000 ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥$ $S_{m\times n}= \left[ \begin{matrix} \sigma_1 & 0 & 0 & \cdots & 0 \\ 0 & \ddots & 0 & \cdots & 0 \\ 0 & 0 & \sigma_k & \cdots & 0 \\ \vdots & \vdots & \vdots & \ddots & 0 \\ 0 & 0 & 0 & 0 & 0 \end{matrix} \right]$
$U n \times n = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ v 11 v 12 ⋮ v 1 n v 21 v 22 ⋮ v 2 n \dots \dots ⋮ \dots v n 1 v n 2 ⋮ v n n ⎤ ⎦ ⎥ ⎥ ⎥ ⎥, v i = [v i 1, v i 2, . . ., v i n] T$ $U_{n\times n}= \left[ \begin{matrix} v_{11} & v_{21} & \cdots & v_{n1} \\ v_{12} & v_{22} & \cdots & v_{n2} \\ \vdots & \vdots & \vdots & \vdots \\ v_{1n} & v_{2n} & \cdots & v_{nn} \end{matrix} \right] , v_i=[v_{i1},v_{i2},...,v_{in}]^T$

关于S还有一个特性，它是按照 $\sigma$ 值的大小，从大到小排列的，即 $\sigma_1>\sigma_2>...>\sigma_k$ 。 $U$ 和 $V$ 都是正交矩阵， $u_1$ ， $u_m$ 和 $v_1$ ， $v_n$ 都是长度为1的单位向量，并且两两之间不相关，即 $u_iu_j=0,i\neq j$ 。所以，可以看作，每一个部分包含信息的多少，全由 $\sigma_i$ 的大小决定。

举个例子:

$S m \times n ＝ ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ 900 ⋮ 0 080 ⋮ 0 003 ⋮ 0 \dots \dots \dots ⋱ 0 00000 ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥$ $S_{m\times n}＝ \left[ \begin{matrix} 9 & 0 & 0 & \cdots & 0 \\ 0 & 8 & 0 & \cdots & 0 \\ 0 & 0 & 3 & \cdots & 0 \\ \vdots & \vdots & \vdots & \ddots & 0 \\ 0 & 0 & 0 & 0 & 0 \end{matrix} \right]$
前两维， $A'=\sigma_1u_1v_1^T ＋ \sigma_2u_2v_2^T$ ，可以包含 $\frac{9+8}{9+8+3}=85\%$ 的信息。而存储原来的数据，我们需要存储m＊n个数字，现在我们仅仅需要存储 $u_1$ ， $u_2$ ， $v_1$ ， $v_2$ 以及 $\sigma_1$ 和 $\sigma_2$ ，一共 $2m＋2n＋2$ 个数字。这就是svd数据压缩的基本思想。

有一个例子解释的非常清晰，感兴趣的话，大家可以看一下这篇博客：奇异值分解和图像压缩

2）主成分分析法（PCA）
在前面一篇博客，PCA详解，中提到，我们一般使用svd来对PCA进行求解。由于在前面的博客中，已经详细介绍过PCA，这里我们假设大家对PCA都非常了解。PCA的核心思想就是，对一个 $m\times n$ 的矩阵 $A$ ，即有 $n$ 个样本、每个样本有 $m$ 个维度，我们要找到一个 $m\times m$ 的矩阵 $U$ ，对原矩阵 $A$ 进行转换，是的转换后的矩阵 $UA$ ，其协方差矩阵 $\sum=UA(UA)^T＝UAA^TU^T$ ，是一个对角矩阵。

我们知道 $AA^T$ 是一个对称矩阵，根绝前面提到过的理论， $AA^T$ 可以分解为： $AA^T＝UDU^T$ ，那么 $UAA^TU^T＝D$ ，正好是一个对角矩阵。而根据svd，我们知道 $A$ 可以分解为： $A＝USV^T$ ，且左奇异矩阵 $U$ 的列向量，正好是对称矩阵 $AA^T$ 的特征向量。

因而，如果得到了矩阵A的奇异值分解矩阵，我们就得到了一个 $m\times m$ 的矩阵 $U$ ，这个矩阵就是PCA的转换矩阵 $U$ 。

另外，还有用svd做推荐算法的，但是其实质上并不是用svd来求解，只是用到了矩阵分解的思想，这里就不详细介绍了，感兴趣的可以去了解一下。

希望本文能对你理解svd有所帮助，感谢阅读。

当 $m>n$ 时	当 $m<n$ 时
$S = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ σ 1 00 ⋮ 0 0 σ 2 0 ⋮ 0 00 σ 3 ⋮ 0 ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥$ $S= \left[ \begin{matrix} \sigma_1 & 0 & 0 \\ 0 & \sigma_2 & 0 \\ 0 & 0 & \sigma_3 \\ \vdots & \vdots & \vdots \\ 0 & 0 & 0 \end{matrix} \right]$	$S = ⎡ ⎣ ⎢ σ 1 00 0 σ 2 0 00 σ 3 \dots \dots \dots 000 ⎤ ⎦ ⎥$ $S= \left[ \begin{matrix} \sigma_1 & 0 & 0 & \cdots & 0 \\ 0 & \sigma_2 & 0 & \cdots & 0 \\ 0 & 0 & \sigma_3 & \cdots & 0 \end{matrix} \right]$