SVD算法和应用

前言

  奇异值分解(Singular Value Decomposition,以下简称SVD)是在机器学习领域广泛应用的算法,它不光可以用于降维算法中的特征分解,还可以用于推荐系统,以及自然语言处理等领域。是很多机器学习算法的基石。本文就对SVD的原理做一个总结,并讨论在在PCA降维算法中是如何运用运用SVD的。

回顾特征值和特征向量

  特征值和特征向量的定义如下:
A x = λ x Ax=\lambda x Ax=λx
其中 A A A是一个 n × n n×n n×n的实对称矩阵, x x x是一个 n n n维向量,则我们说 λ λ λ是矩阵 A A A的一个特征值,而 x x x是矩阵 A A A的特征值 λ λ λ所对应的特征向量。
  求出特征值和特征向量有什么好处呢? 就是我们可以将矩阵 A A A特征分解。如果我们求出了矩阵 A A A n n n个特征值 λ 1 ≤ λ 2 ≤ . . . ≤ λ n λ1≤λ2≤...≤λn λ1λ2...λn,以及这 n n n个特征值所对应的特征向量 w 1 , w 2 , . . . w n {w_1,w_2,...w_n} w1,w2,...wn,如果这 n n n个特征向量线性无关,那么矩阵A就可以用下式的特征分解表示:
A = W Σ W − 1 A=W\Sigma W^{-1} A=WΣW1
其中 W W W是这 n n n个特征向量所张成的 n × n n×n n×n维矩阵,而 Σ Σ Σ为这 n n n个特征值为主对角线的 n × n n×n n×n维矩阵。
  一般我们会把 W W W的这 n n n个特征向量标准化,即满足 ∣ ∣ w i ∣ ∣ 2 = 1 ||w_i||^{2}=1 wi2=1, 或者说 w T i w i = 1 w^{T_i}w_i=1 wTiwi=1,此时 W W W n n n个特征向量为标准正交基,满足 W T W = I W^{T}W=I WTW=I,即 W T = W − 1 W^{T}=W^{−1} WT=W1, 也就是说 W W W为酉矩阵。这样我们的特征分解表达式可以写成:
A = W Σ W T A=W\Sigma W^{T} A=WΣWT
  注意到要进行特征分解,矩阵A必须为方阵。那么如果A不是方阵,即行和列不相同时,我们还可以对矩阵进行分解吗?答案是可以,此时我们的SVD登场了。

SVD的定义

  SVD也是对矩阵进行分解,但是和特征分解不同,SVD并不要求要分解的矩阵为方阵。假设我们的矩阵A是一个m×n的矩阵,那么我们定义矩阵A的SVD为:
A = U Σ V T A=U\Sigma V^{T} A=UΣVT
其中 U U U是一个 m × m m×m m×m的矩阵, Σ Σ Σ是一个 m × n m×n m×n的矩阵,除了主对角线上的元素以外全为0,主对角线上的每个元素都称为奇异值, V V V是一个 n × n n×n n×n的矩阵。 U U U V V V都是酉矩阵,即满足 U T U = I U^{T}U=I UTU=I V T V = I V^{T}V=I VTV=I
  如何求出SVD分解后的 U , Σ , V U,Σ,V U,Σ,V这三个矩阵呢?
  如果我们将 A A A的转置和 A A A做矩阵乘法,那么会得到 n × n n×n n×n的一个方阵 A T A A^{T}A ATA。既然 A T A A^{T}A ATA是方阵,那么我们就可以进行特征分解,特征分解得到的 n n n个张量张成的 n × n n×n n×n矩阵就是 V V V;同理,如果我们将 A A A A A A的转置做矩阵乘法可以得到 U U U
  我们注意到:
A = U Σ V T ⇒ A V = U Σ V T V ⇒ A V = U Σ ⇒ A v i = σ i u i A=U\Sigma V^{T}\Rightarrow AV=U\Sigma V^{T}V\Rightarrow AV=U\Sigma\Rightarrow Av_i=\sigma_i u_i A=UΣVTAV=UΣVTVAV=UΣAvi=σiui
这样我们可以求出我们的每个奇异值,进而求出奇异值矩阵 Σ Σ Σ
A = U Σ V T ⇒ A T = V Σ T U T ⇒ A T A = V Σ 2 V T A=U\Sigma V^{T}\Rightarrow A^{T}=V\Sigma^{T} U^{T}\Rightarrow A^{T}A=V\Sigma^{2}V^{T} A=UΣVTAT=VΣTUTATA=VΣ2VT
我们可以看出我们的特征值矩阵等于奇异值矩阵的平方,也就是说特征值和奇异值满足如下关系:
σ i = λ i \sigma_i=\sqrt{\lambda_i} σi=λi

SVD的一些性质

  对于奇异值,它跟我们特征分解中的特征值类似,在奇异值矩阵中也是按照从大到小排列,而且奇异值的减少特别的快,在很多情况下,前10%甚至1%的奇异值的和就占了全部的奇异值之和的99%以上的比例。也就是说,我们也可以用最大的k个的奇异值和对应的左右奇异向量来近似描述矩阵。也就是说:
A m × n = U m × m Σ m × n V n × n T ≈ U m × k Σ k × k V k × n T A_{m×n}=U_{m×m}Σ_{m×n}V^{T}_{n×n}≈U_{m×k}Σ_{k×k}V^{T}_{k×n} Am×n=Um×mΣm×nVn×nTUm×kΣk×kVk×nT
由于这个重要的性质,SVD可以用于PCA降维,来做数据压缩和去噪。也可以用于推荐算法,将用户和喜好对应的矩阵做特征分解,进而得到隐含的用户需求来做推荐。同时也可以用于NLP中的算法,比如潜在语义索引(LSI)。

SVD用于PCA

  PCA降维,需要找到样本协方差矩阵 X T X X^{T}X XTX的最大的 d d d个特征向量,然后用这最大的 d d d个特征向量张成的矩阵来做低维投影降维。可以看出,在这个过程中需要先求出协方差矩阵 X T X X^{T}X XTX,当样本数多样本特征数也多的时候,这个计算量是很大的。
  注意到我们的SVD也可以得到协方差矩阵 X T X X^{T}X XTX最大的 d d d个特征向量张成的矩阵,但是SVD有个好处,有一些SVD的实现算法可以不求先求出协方差矩阵 X T X X^{T}X XTX,也能求出我们的右奇异矩阵 V V V。也就是说,我们的PCA算法可以不用做特征分解,而是做SVD来完成。这个方法在样本量很大的时候很有效。实际上,scikit-learn的PCA算法的背后真正的实现就是用的SVD,而不是我们我们认为的暴力特征分解。
  另一方面,注意到PCA仅仅使用了我们SVD的右奇异矩阵,没有使用左奇异矩阵,那么左奇异矩阵有什么用呢?
  假设我们的样本是 m × n m×n m×n的矩阵 X X X,如果我们通过SVD找到了矩阵 X X T XX^{T} XXT最大的 d d d个特征向量张成的 m × d m×d m×d维矩阵 U U U,则我们如果进行如下处理:
X d × n ′ = U d × m T X m × n X^{'}_{d×n}=U^{T}_{d×m}X_{m×n} Xd×n=Ud×mTXm×n
  可以得到一个 d × n d×n d×n的矩阵 X ′ X^{'} X,这个矩阵和我们原来的 m × n m×n m×n维样本矩阵 X X X相比,行数从 m m m减到了 d d d,可见对行数进行了压缩。也就是说,左奇异矩阵可以用于行数的压缩。相对的,右奇异矩阵可以用于列数即特征维度的压缩,也就是我们的PCA降维。

结束语

本人大三学生一枚,学识尚浅,不喜勿喷,希望今日能抛砖引玉,请各位大佬一定不吝赐教!!!
参考自:https://www.cnblogs.com/pinard/p/6251584.html

  • 2
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值