SVD奇异值分解逐步推导

最新推荐文章于 2024-07-25 08:15:00 发布

BieberChen

最新推荐文章于 2024-07-25 08:15:00 发布

阅读量423

点赞数 2

分类专栏：奇异值分解机器学习降维文章标签：机器学习深度学习 SVD奇异值分解降维

本文链接：https://blog.csdn.net/BieberChen/article/details/99134769

版权

机器学习同时被 3 个专栏收录

4 篇文章 0 订阅

订阅专栏

降维

2 篇文章 0 订阅

订阅专栏

奇异值分解

1 篇文章 0 订阅

订阅专栏

SVD奇异值分解逐步推导

1. 回顾特征值和特征向量

首先回顾下特征值和特征向量的定义：
$Ax=\lambda x$ 其中，A是一个 $n\times n$ 的矩阵， $x$ 是一个 $n$ 维向量，则 $\lambda$ 是矩阵A的一个特征值，而 $x$ 是矩阵A的特征值 $\lambda$ 对应的特征向量。

求出特征值和特征向量有什么好处呢？就是我们可以将矩阵A特征分解。如果我们求出了矩阵A的n个特征值 $\lambda _1\leq \lambda_2\leq ... \leq\lambda_n$ ，以及这 $n$ 个特征值所对应的特征向量 $w_1, w_2, ..., w_n$ ,那么矩阵A就可以用以下的特征分解表示：
$W^{-1}AW=\Lambda \Leftrightarrow A=W\Lambda W^{-1}$ 其中， $W$ 是这 $n$ 个特征向量所组成的 $n\times n$ 维矩阵，而 $\Lambda$ 是将这 $n$ 个特征值作为主对角线的 $n\times n$ 维矩阵。一般情况下，我们会把 $W$ 的这 $n$ 个特征向量标准化，即满足 $w_i||_2=1$ ，或者 $w_i^Tw_i=1$ ,此时 $W$ 的 $n$ 个特征向量为标准正交基，满足 $W^TW=I$ ，即 $W^T=W^{-1}$ ,也就是说 $W$ 为酉矩阵。这样我们的特征分解表达式可以写成：
$A=W\Lambda W^T$

题外延伸------矩阵压缩：

设 $W=(w_1, w_2, w_3,...,w_n)$ ，则:
$W^T=\begin{pmatrix} w_1^T\\ w_2^T\\ w_3^T\\ ... \\ w_n^T \end{pmatrix}$ 那么:
$A=(w_1, w_2, w_3,...,w_n)\begin{pmatrix} \lambda_1&&&\\ &\lambda_2&&\\ &&\lambda_3&\\ &&&...\\ &&&&\lambda_n \end{pmatrix}\begin{pmatrix} w_1^T\\ w_2^T\\ w_3^T\\ ... \\ w_n^T \end{pmatrix} \\ =\lambda_1w_1w_1^T+\lambda_2w_2w_2^T+\lambda_3w_3w_3^T+...+\lambda_nw_nw_n^T$

假设A为 $n\times n$ 维矩阵，如果正常表示矩阵A共需使用 $n^2$ 个元素，如果将取得的特征值 $\lambda_1,\lambda_2,\lambda_3,...,\lambda_n$ 按从大到小排序，即 $\lambda_1\geq\lambda_2\geq\lambda_3\geq...\geq\lambda_n$ ，则将A的压缩表示为 $\lambda_1w_1w_1^T$ ，即只需要 $n + 1$ 个元素。

注意到要进行特征分解，矩阵A必须为方阵。

那么如果A不是方阵，即行和列不相同时，我们还可以对矩阵进行分解吗？答案是可以，此时我们的SVD登场了。

2. SVD推导

Step1：矩阵分解

假如 $A$ 为 $m\times n$ 维矩阵，则 $A^TA$ 为对称正定矩阵。

证明：1)对称性： $(A^TA)^T=A^TA\Rightarrow 对称性$
2)正定性： $x^TA^TAx=(Ax)^T(Ax)\geq 0\Rightarrow正定性$

对于矩阵A，有 $(A^TA)v_i=\lambda _iv_i$ ，其中 $\lambda_i$ 为特征值， $v_i$ 为特征向量。假定 $v_i, v_j)$ 是一组正交基，那么有 $v_i^T\cdot v_j=0$ ，那么：
$(Av_i, Av_j)=(Av_i)^T\cdot Av_j=v_i^TA^TAv_j=v_i^T\lambda_jv_j=\lambda_jv_i^Tv_j=0$ 因此， $Av_i,Av_j$ 也是一组正交基，根据上述公式可以推导出 $(Av_i, Av_i)=\lambda_iv_i^Tv_i=\lambda_i$ ,从而可以得到：
$|Av_i|^2=\lambda_i$ $|Av_i|=\sqrt{\lambda_i}$ 根据上述公式，有 $\frac{Av_i}{|Av_i|}=\frac{1}{\sqrt{\lambda_i}}Av_i$ ，令 $\frac{1}{\sqrt{\lambda_i}}Av_i=u_i$ ，可得：
$Av_i=\sqrt{\lambda_i}u_i=\delta_i u_i$ 其中， $\delta_i=\sqrt{\lambda_i}$ ，进一步推导：
$AV=A(v_1,v_2,...,v_n)=(Av_1,Av_2,...,Av_n)=(\delta_1u_1,\delta_2u_2,...,\delta_nu_n)=U\Sigma$ 从而得出：
$A=U\Sigma V^T$

Step2:矩阵计算

得到矩阵A的表示后，我们应该如何计算向量 $U$ 和 $V$ 呢？继续往下面分析：

首先计算出A的转置 $A^T$ ： $A^T=V\Sigma ^TU^T$
$A^TA=V\Sigma^TU^TU\Sigma V^T=V\Sigma^2V^T$ 利用上式可以得到， $A^TAv_i=\lambda_iv_i$ ，只需要求出 $A^TA$ 的特征向量即可得到 $V$ .

同理可得 $AA^T$ 的值：
$AA^T=U\Sigma V^TV\Sigma^TU^T=U\Sigma^2U^T$ 可以得到 $AA^Tu_i=\lambda_iu_i$ ，只需要求出 $AA^T$ 的特征向量即可得到 $U$ .

题外延伸-----矩阵(图像)压缩：

一个 $m\times n$ 的矩阵A经SVD分解后，可以写成如下形式：
$A_{m\times n}=U_{m\times m}\Sigma V^T_{n\times n}=(u_1,u_2,...,u_m)\begin{pmatrix} \lambda_1^{\frac{1}{2}}&&\\ &\lambda_2^{\frac{1}{2}}&\\ &&... \end{pmatrix}\begin{pmatrix} v_1^T\\ v_2^T\\ ...\\ v_n^T \end{pmatrix}\\ =\lambda_1^{\frac{1}{2}}u_1v_1^T+\lambda_2^{\frac{1}{2}}u_2v_2^T+...$
假设A为 $m\times n$ 维矩阵，在没有压缩时表示矩阵A共需要 $m\times n$ 个元素。如果将取得的特征值按从大到小排序，即 $\lambda_1\geq\lambda_2\geq\lambda_3\geq...\geq\lambda_{min\{m,n\}}$ ，则A的压缩最小压缩表示为 $\lambda_1^{\frac{1}{2}}u_1v_1^T$ ，即需要 $m + n + 1$ 个元素。
当压缩储存量为 $(m+n+1)\times k$ 时，误差为
$error=\frac{(m+n)\times\sum_{i=1}^{k}\lambda_i}{(m+n)\times\sum_{i=1}^{min(m,n)}\lambda_i}=\frac{\sum_{i=1}^{k}\lambda_i}{\sum_{i=1}^{min(m,n)}\lambda_i}$

例题讲解

我们举一个简单的例子讲解矩阵时如何进行奇异值分解的。定义矩阵A为：
$A=\begin{pmatrix} 0 &1 \\ 1&1\\ 1&0 \end{pmatrix}$ 首先求出 $A^TA、AA^T$ ：
$A^TA=\begin{pmatrix} 0&1&1\\ 1&1&0 \end{pmatrix}\begin{pmatrix} 0&1\\ 1&1\\ 1&0 \end{pmatrix}=\begin{pmatrix} 2&1\\ 1&2 \end{pmatrix}$ $AA^T=\begin{pmatrix} 0&1\\ 1&1\\ 1&0 \end{pmatrix}\begin{pmatrix} 0&1&1\\ 1&1&0 \end{pmatrix}=\begin{pmatrix} 1&1&0\\ 1&2&1\\ 0&1&1 \end{pmatrix}$ 进而求出 $A^TA$ 的特征值和特征向量：
$\lambda_1=3;v_1=\begin{pmatrix} \frac{1}{\sqrt{2}}\\ \frac{1}{\sqrt{2}} \end{pmatrix}; \lambda_2=1;v_2=\begin{pmatrix} -\frac{1}{\sqrt{2}}\\ \frac{1}{\sqrt{2}} \end{pmatrix}$ 接着求出 $AA^T$ 的特征值和特征向量：
$\lambda_1=3;u_1=\begin{pmatrix} \frac{1}{\sqrt{6}}\\ \frac{2}{\sqrt{6}}\\ \frac{1}{\sqrt{6}} \end{pmatrix}; \lambda_2=1;u_2=\begin{pmatrix} \frac{1}{\sqrt{2}}\\ 0\\ -\frac{1}{\sqrt{2}} \end{pmatrix};\lambda_3=0;u_3=\begin{pmatrix} \frac{1}{\sqrt{3}}\\ -\frac{1}{\sqrt{3}}\\ \frac{1}{\sqrt{3}} \end{pmatrix}$ 利用 $Av_i=\delta_iu_i,i=1,2$ 求奇异值：
$\begin{pmatrix} 0&1\\ 1&1\\ 1&0 \end{pmatrix}\begin{pmatrix} \frac{1}{\sqrt{2}}\\ \frac{1}{\sqrt{2}} \end{pmatrix}=\delta_1\begin{pmatrix} \frac{1}{\sqrt{6}}\\ \frac{2}{\sqrt{6}}\\ \frac{1}{\sqrt{6}} \end{pmatrix} \Rightarrow\delta_1=\sqrt{3}$ $\begin{pmatrix} 0&1\\ 1&1\\ 1&0 \end{pmatrix}\begin{pmatrix} -\frac{1}{\sqrt{2}}\\ \frac{1}{\sqrt{2}} \end{pmatrix}=\delta_2\begin{pmatrix} \frac{1}{\sqrt{2}}\\ 0\\ -\frac{1}{\sqrt{2}} \end{pmatrix} \Rightarrow\delta_2=1$ 也可以用 $\delta_i=\sqrt{\lambda_i}$ 直接求出奇异值为 $\sqrt{3}$ 和 $1$ .

最终得到矩阵A的奇异值分解为：
$A=U\Sigma V^T=\begin{pmatrix} \frac{1}{\sqrt{6}} &\frac{1}{\sqrt{2}} & \frac{1}{\sqrt{3}} \\ \frac{2}{\sqrt{6}} &0 & -\frac{1}{\sqrt{3}} \\ \frac{1}{\sqrt{6}} &-\frac{1}{\sqrt{2}} & \frac{1}{\sqrt{3}} \end{pmatrix}\begin{pmatrix} \sqrt{3} & 0\\ 0 & 1\\ 0 & 0 \end{pmatrix}\begin{pmatrix} \frac{1}{\sqrt{2}} & \frac{1}{\sqrt{2}} \\ -\frac{1}{\sqrt{2}} & \frac{1}{\sqrt{2}} \end{pmatrix}$

SVD的一些性质

对于奇异值，他跟我们特征分解中的特征值类似，在奇艺置矩阵中也是按照从大到小排列，而且奇异值的减少特别快，在很多情况下，前10%甚至1%的奇异值就占了全部的奇异值之和的99%以上的比例。也就是说，我们也可以用最大的k个奇异值和对应的左右奇异向量来近似描述矩阵(与前面描述的题外延伸之矩阵压缩类似)，由于这个重要的性质，SVD也可以用于PCA降维，来做数据压缩和去噪，也可以用于推荐算法，将用户和喜好对应的矩阵做特征分解，进而得到隐含的用户需要来做推荐。同时也可以用于NLP中的算法，比如潜在语义索引（LSI）。

参考：https://zhuanlan.zhihu.com/p/29846048

参考：https://www.csuldw.com/2017/03/09/2017-03-09-svd/

BieberChen

关注

2
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
SVD奇异值分解逐步推导

SVD奇异值分解逐步推导1. 回顾特征值和特征向量首先回顾下特征值和特征向量的定义：Ax=λxAx=\lambda xAx=λx其中，A是一个n×nn\times nn×n的矩阵，xxx是一个nnn维向量，则λ\lambdaλ是矩阵A的一个特征值，而xxx是矩阵A的特征值λ\lambdaλ对应的特征向量。求出特征值和特征向量有什么好处呢？就是我们可以将矩阵A特征分解。如果我们求出了矩阵...
复制链接

扫一扫

专栏目录