SVD算法和应用

最新推荐文章于 2022-06-01 09:32:44 发布

Be Lady

最新推荐文章于 2022-06-01 09:32:44 发布

阅读量776

点赞数 2

文章标签：神经网络数据挖掘机器学习

原文链接：https://www.cnblogs.com/pinard/p/6251584.html

版权

前言

奇异值分解(Singular Value Decomposition，以下简称SVD)是在机器学习领域广泛应用的算法，它不光可以用于降维算法中的特征分解，还可以用于推荐系统，以及自然语言处理等领域。是很多机器学习算法的基石。本文就对SVD的原理做一个总结，并讨论在在PCA降维算法中是如何运用运用SVD的。

回顾特征值和特征向量

特征值和特征向量的定义如下：
$Ax=\lambda x$
其中 $A$ 是一个 $n \times n$ 的实对称矩阵， $x$ 是一个 $n$ 维向量，则我们说 $λ$ 是矩阵 $A$ 的一个特征值，而 $x$ 是矩阵 $A$ 的特征值 $λ$ 所对应的特征向量。
求出特征值和特征向量有什么好处呢？就是我们可以将矩阵 $A$ 特征分解。如果我们求出了矩阵 $A$ 的 $n$ 个特征值 $λ 1 \leq λ 2 \leq . . . \leq λ n$ ，以及这 $n$ 个特征值所对应的特征向量 ${w_1,w_2,...w_n}$ ，如果这 $n$ 个特征向量线性无关，那么矩阵A就可以用下式的特征分解表示：
$A=W\Sigma W^{-1}$
其中 $W$ 是这 $n$ 个特征向量所张成的 $n \times n$ 维矩阵，而 $Σ$ 为这 $n$ 个特征值为主对角线的 $n \times n$ 维矩阵。
一般我们会把 $W$ 的这 $n$ 个特征向量标准化，即满足 $w_i||^{2}=1$ , 或者说 $w^{T_i}w_i=1$ ，此时 $W$ 的 $n$ 个特征向量为标准正交基，满足 $W^{T}W=I$ ，即 $W^{T}=W^{−1}$ , 也就是说 $W$ 为酉矩阵。这样我们的特征分解表达式可以写成：
$A=W\Sigma W^{T}$
注意到要进行特征分解，矩阵A必须为方阵。那么如果A不是方阵，即行和列不相同时，我们还可以对矩阵进行分解吗？答案是可以，此时我们的SVD登场了。

SVD的定义

SVD也是对矩阵进行分解，但是和特征分解不同，SVD并不要求要分解的矩阵为方阵。假设我们的矩阵A是一个m×n的矩阵，那么我们定义矩阵A的SVD为：
$A=U\Sigma V^{T}$
其中 $U$ 是一个 $m \times m$ 的矩阵， $Σ$ 是一个 $m \times n$ 的矩阵，除了主对角线上的元素以外全为0，主对角线上的每个元素都称为奇异值， $V$ 是一个 $n \times n$ 的矩阵。 $U$ 和 $V$ 都是酉矩阵，即满足 $U^{T}U=I$ ， $V^{T}V=I$ 。
如何求出SVD分解后的 $U, Σ, V$ 这三个矩阵呢？
如果我们将 $A$ 的转置和 $A$ 做矩阵乘法，那么会得到 $n \times n$ 的一个方阵 $A^{T}A$ 。既然 $A^{T}A$ 是方阵，那么我们就可以进行特征分解，特征分解得到的 $n$ 个张量张成的 $n \times n$ 矩阵就是 $V$ ；同理，如果我们将 $A$ 和 $A$ 的转置做矩阵乘法可以得到 $U$ ，
我们注意到：
$A=U\Sigma V^{T}\Rightarrow AV=U\Sigma V^{T}V\Rightarrow AV=U\Sigma\Rightarrow Av_i=\sigma_i u_i$
这样我们可以求出我们的每个奇异值，进而求出奇异值矩阵 $Σ$ 。
$A=U\Sigma V^{T}\Rightarrow A^{T}=V\Sigma^{T} U^{T}\Rightarrow A^{T}A=V\Sigma^{2}V^{T}$
我们可以看出我们的特征值矩阵等于奇异值矩阵的平方，也就是说特征值和奇异值满足如下关系：
$\sigma_i=\sqrt{\lambda_i}$

SVD的一些性质

对于奇异值,它跟我们特征分解中的特征值类似，在奇异值矩阵中也是按照从大到小排列，而且奇异值的减少特别的快，在很多情况下，前10%甚至1%的奇异值的和就占了全部的奇异值之和的99%以上的比例。也就是说，我们也可以用最大的k个的奇异值和对应的左右奇异向量来近似描述矩阵。也就是说：
$A_{m×n}=U_{m×m}Σ_{m×n}V^{T}_{n×n}≈U_{m×k}Σ_{k×k}V^{T}_{k×n}$
由于这个重要的性质，SVD可以用于PCA降维，来做数据压缩和去噪。也可以用于推荐算法，将用户和喜好对应的矩阵做特征分解，进而得到隐含的用户需求来做推荐。同时也可以用于NLP中的算法，比如潜在语义索引(LSI)。

SVD用于PCA

PCA降维，需要找到样本协方差矩阵 $X^{T}X$ 的最大的 $d$ 个特征向量，然后用这最大的 $d$ 个特征向量张成的矩阵来做低维投影降维。可以看出，在这个过程中需要先求出协方差矩阵 $X^{T}X$ ，当样本数多样本特征数也多的时候，这个计算量是很大的。
注意到我们的SVD也可以得到协方差矩阵 $X^{T}X$ 最大的 $d$ 个特征向量张成的矩阵，但是SVD有个好处，有一些SVD的实现算法可以不求先求出协方差矩阵 $X^{T}X$ ，也能求出我们的右奇异矩阵 $V$ 。也就是说，我们的PCA算法可以不用做特征分解，而是做SVD来完成。这个方法在样本量很大的时候很有效。实际上，scikit-learn的PCA算法的背后真正的实现就是用的SVD，而不是我们我们认为的暴力特征分解。
另一方面，注意到PCA仅仅使用了我们SVD的右奇异矩阵，没有使用左奇异矩阵，那么左奇异矩阵有什么用呢？
假设我们的样本是 $m \times n$ 的矩阵 $X$ ，如果我们通过SVD找到了矩阵 $XX^{T}$ 最大的 $d$ 个特征向量张成的 $m \times d$ 维矩阵 $U$ ，则我们如果进行如下处理：
$X^{'}_{d×n}=U^{T}_{d×m}X_{m×n}$
可以得到一个 $d \times n$ 的矩阵 $X^{'}$ ，这个矩阵和我们原来的 $m \times n$ 维样本矩阵 $X$ 相比，行数从 $m$ 减到了 $d$ ，可见对行数进行了压缩。也就是说，左奇异矩阵可以用于行数的压缩。相对的，右奇异矩阵可以用于列数即特征维度的压缩，也就是我们的PCA降维。

结束语

本人大三学生一枚，学识尚浅，不喜勿喷，希望今日能抛砖引玉，请各位大佬一定不吝赐教！！！
参考自：https://www.cnblogs.com/pinard/p/6251584.html

Be Lady

关注

2
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
SVD算法和应用

前言奇异值分解(Singular Value Decomposition，以下简称SVD)是在机器学习领域广泛应用的算法，它不光可以用于降维算法中的特征分解，还可以用于推荐系统，以及自然语言处理等领域。是很多机器学习算法的基石。本文就对SVD的原理做一个总结，并讨论在在PCA降维算法中是如何运用运用SVD的。回顾特征值和特征向量特征值和特征向量的定义如下：Ax=λxAx=\lambda xAx=λx其中AAA是一个n×nn×nn×n的实对称矩阵，xxx是一个nnn维向量，则我们说λλλ
复制链接

扫一扫