SVD分解总结
该文章介绍的是SVD的原理,具体求解目前有很多现成算法如C++的Eigen库等,自己代码实现可以参考开源算法,按文章里求特征值平方根或者先求UV矩阵再求\Sigma矩阵的方法,由于特征向量不全为正,会得到错误的结果。
refference: https://zhuanlan.zhihu.com/p/29846048?spm=wolai.workspace.0.0.15534f34vfyeAr
1.特征值和特征向量
定义 : : : A x = λ x Ax = \lambda x Ax=λx,A是一个 n × n n\times n n×n矩阵,x是一个n维向量,则 λ \lambda λ是矩阵A的一个特征值,而x是矩阵A的特征值 λ \lambda λ所对应的特征向量。
求出了A的特征值和特征值对应的特征向量之后,矩阵A就可以用下面的特征分解表示:
A = W Σ W − 1 A =W\Sigma W^{-1} A=WΣW−1
其中W是n个特征向量所张成的 n × n n\times n n×n矩阵,而 Σ \Sigma Σ是n个特征值为主对角线的 n × n n\times n n×n矩阵。
将W的n个特征向量标准化后,W的n个特征向量为标准正交基,满足 W T W = I W^TW=I WTW=I,也就是W为正交矩阵。这样特征分解的表达式就可以写成
A = W Σ W T A=W\Sigma W^T A=WΣWT
当A为方阵时我们可以进行特征值分解,当A不是方阵,我们就可以用SVD奇异值分解了。
2.SVD定义
假设A是一个mxn的矩阵,定义A的SVD分解为:
A = U Σ V T A=U\Sigma V^T A=UΣVT
其中U是一个mxm的方阵, Σ \Sigma Σ是一个mxn的对角线矩阵,元素为A的奇异值,V是一个nxn的方阵。UV都是正交矩阵,如图所示:
那么
U
,
Σ
,
V
U,\Sigma,V
U,Σ,V如何求出呢?
我们将A的转置和A做乘法,就可以得到一个nxn的方阵
A
T
A
A^TA
ATA,对这个方阵进行特征分解就可以得到n个特征向量,将n个特征向量张成一个nxn的矩阵就是我们SVD分解中的矩阵V,一般将V中的每个特征向量叫做A的右奇异向量。
而将A和A的转置做乘法,可以得到一个mxm的方阵 A A T AA^T AAT对这个方阵做同样处理就可以得到我们SVD分解中的U矩阵,一般将U中的每个特征向量叫做A的左奇异向量。
还剩下奇异值矩阵 Σ \Sigma Σ,做
A = U Σ V T ⇒ A V = U Σ V T V = U Σ A v i = σ i u i ⇒ σ i = A v i / u i A=U\Sigma V^T\Rightarrow AV =U\Sigma V^TV = U\Sigma \\Av_i=\sigma _iu_i\Rightarrow \sigma_i=Av_i/u_i A=UΣVT⇒AV=UΣVTV=UΣAvi=σiui⇒σi=Avi/ui
这样就可以求得奇异值矩阵 Σ \Sigma Σ
还有一个问题,
A
T
A
A^TA
ATA的特征向量组成是V矩阵,
A
A
T
AA^T
AAT的特征向量组成是U矩阵,这个结论是怎么来的呢?以V矩阵的证明为例:
上式证明使用了
U
T
U
=
I
,
Σ
T
Σ
=
Σ
2
U^TU=I,\Sigma^T\Sigma=\Sigma^2
UTU=I,ΣTΣ=Σ2, 则可以看出
A
T
A
A^TA
ATA的特征向量就是我们SVD中的V矩阵,类似可以证明
A
A
T
AA^T
AAT的特征向量组成的是SVD中的U矩阵。
进一步还可以看出特征值矩阵等于奇异值矩阵的平方,也就是说特征值和奇异值满足如下关系:
σ i = λ i \sigma_i=\sqrt{\lambda_i} σi=λi
这样就可以用 A T A A^TA ATA的特征值取平方根来求奇异值。