PCA和SVD区别和联系

AlexInML

于 2016-02-07 11:51:07 发布

阅读量5.1w

点赞数 24

分类专栏：机器学习基础文章标签： PCA SVD 区别联系降维

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/wangjian1204/article/details/50642732

版权

机器学习基础专栏收录该内容

12 篇文章

订阅专栏

前言：

PCA(principal component analysis)和SVD(Singular value decomposition)是两种常用的降维方法，在机器学习等领域有广泛的应用。本文主要介绍这两种方法之间的区别和联系。

一、PCA:

PCA

图1.寻找主成分方向

PCA的中文名叫做主成分分析，是降维和去噪的一种重要方法。PCA选取包含信息量最多的方向对数据进行投影。其投影方向可以从最大化方差或者最小化投影误差两个角度理解（详细推导见机器学习圣经PRML）。假设有 $n\times d$ 矩阵X，每一行是一个 $d$ 维样本 $x_i$ ，寻找投影方向 $v_j$ 以最大化投影方差：

max v j 1 n \sum i = 1 n (x i v j - x ¯) ⊤ (x i v j - x ¯) = v ⊤ j C v j, s . t . v ⊤ j \cdot v j = 1

$\begin{equation} \max_{v_j} \frac{1}{n} \sum_{i=1}^n (x_i v_j - \bar{x})^\top (x_i v_j - \bar{x}) = v_j^\top C v_j,\;\;\; s.t.\; v_j^\top \cdot v_j = 1 \end{equation}$

X'X

图2.X’X

其中 $\bar{x}$ 是均值，为了简化公式，本文假设 $X$ 已经进行过零均值化处理，即 $\bar{x}=0$ ； $v_j$ 是数据的投影方向。 $d\times d$ 协方差矩阵 $C = \frac{1}{n} \sum_{i=1}^n (x_i)^\top (x_i ) = \frac{1}{n} X^\top X$ 。由于 $C$ 是实对称矩阵，可以进行对角化处理：

C = V L V ⊤

$\begin{equation} C = VLV^\top \end{equation}$

d×d $d\times d$ 正交矩阵

V $V$ 的每一列是特征向量，

d×d $d\times d$ 矩阵

L $L$ 对角线上的每一个元素是特征值，且特征值按递减顺序排列。把

C $C$ 代回式子

v⊤jCvj $v_j^\top C v_j$ ：

v ⊤ j C v j = v ⊤ j V L V ⊤ v j = λ j

$\begin{equation} v_j^\top C v_j = v_j^\top VLV^\top v_j = \lambda_j \end{equation}$

λj $\lambda_j$ 是特征向量

vj $v_j$ 对应的特征值。可以发现当投影方向是

C $C$ 的最大特征值对应的特征向量时，投影方向上数据的方差最大。所以用PCA进行降维时通常选取较大特征值对应的特征向量作为投影方向：

XVk $XV_k$ ，

Vk $V_k$ 是最大的k个特征值对应的特征向量矩阵。

二、SVD:

如果对 $X$ 做奇异值矩阵分解（SVD分解）：

X = U S V ⊤

$\begin{equation} X = USV^\top \end{equation}$
对角阵

S $S$ 对角线上的元素是奇异值，

U $U$ 和

V $V$ 是正交矩阵：

U⊤U=I,V⊤V=I $U^\top U=I, V^\top V=I$ 。把

X $X$ 的奇异值分解代入协方差矩阵：

C = 1 n X ⊤ X = 1 n V S ⊤ U ⊤ U S V ⊤ = V S 2 n V ⊤

$\begin{equation} C = \frac{1}{n} X^\top X = \frac{1}{n} VS^\top U^\top USV^\top = V\frac{S^2}{n} V^\top \end{equation}$

d×d $d\times d$ 正交矩阵

V $V$ 的每一列是特征向量，不难发现特征值与奇异值之间存在着对应关系

λi=S2ii/n $\lambda_i = S_{ii}^2/n$ 。对

X $X$ 主成分方向进行投影：

X V k = U S V ⊤ V k = U k S k

$\begin{equation} XV_k = USV^\top V_k = U_k S_k \end{equation}$

Uk $U_k$ 包含

U $U$ 的前k列，

Sk $S_k$ 包含

S $S$ 左上角的

k×k $k\times k$ 个元素。

三、区别与联系：

SVD另一个方向上的主成分

SVD可以获取另一个方向上的主成分，而PCA只能获得单个方向上的主成分：

1 n X X ⊤ = 1 n U S V ⊤ V S ⊤ U ⊤ = U S 2 n U ⊤

$\begin{equation} \frac{1}{n} X X^\top = \frac{1}{n} USV^\top VS^\top U^\top = U\frac{S^2}{n} U^\top \end{equation}$

SVD计算伪逆

求解矩阵的最小二乘问题需要求伪逆，使用SVD可以很容易得到矩阵 $X$ 的伪逆：

X + = V S - 1 U ⊤

$\begin{equation} X^+ = VS^{-1}U^\top \end{equation}$

LSI

隐语义索引（Latent semantic indexing，简称LSI）通常建立在SVD的基础上，通过低秩逼近达到降维的目的。

X k = min A r a n k (A) = k ∥ X - A ∥

$\begin{equation} X_k = \min_{A\; rank(A)=k} \parallel X - A\parallel \end{equation}$
注意到PCA也能达到降秩的目的，但是PCA需要进行零均值化，且丢失了矩阵的稀疏性。

数值稳定性

通过SVD可以得到PCA相同的结果，但是SVD通常比直接使用PCA更稳定。因为PCA需要计算 $X^\top X$ 的值，对于某些矩阵，求协方差时很可能会丢失一些精度。例如Lauchli矩阵：

X = ⎡ ⎣ ⎢ ⎢ ⎢ 1 e 00 10 e 0 100 e ⎤ ⎦ ⎥ ⎥ ⎥

$\begin{equation} X= \begin{bmatrix} 1 & 1 & 1\\ e & 0 & 0\\ 0 & e & 0\\ 0 & 0 & e\\ \end{bmatrix} \end{equation}$
在Lauchli矩阵里，

e $e$ 是很小的数，

e2 $e^2$ 无法用计算机精确表示，从而计算

X⊤X $X^\top X$ 会丢失

e <script type="math/tex" id="MathJax-Element-53">e</script>这部分信息。

四、参考资料

[1] Pattern Recognition and Machine Learning

[2] Mathematics Stack Exchange:http://math.stackexchange.com/questions/3869/what-is-the-intuitive-relationship-between-svd-and-pca

[3] Cross Validated:http://stats.stackexchange.com/questions/134282/relationship-between-svd-and-pca-how-to-use-svd-to-perform-pca

博客等级

码龄15年

48
原创

208
点赞

675
收藏

117
粉丝

关注

私信

热门文章

分类专栏

展开全部收起

最新评论

Maven导入本地jar包
basket_ming: jar跟pom.xml依赖可以二选一！！
Maven导入本地jar包
nick`Lin: 方法3果然如博主所说有意想不到的情况，在jekins发的时候，找不到导入jar包的某个类，很神奇，但是具体问题还没有排查
Maven导入本地jar包
蝈蝈_: 感谢分享，很有帮助
施密特正交化及QR分解（附实现代码）
昕昕小象: 感觉写的不错！很有帮助
Nsight VS2012 was not found，no CUDA-capable device is detected，cudaGetDeviceCount returned 30
键盘即钢琴: 官网原文翻译版：解决方案有关安装过程中可能出现的上述情况的可能故障排除解决方案，请参阅以下列表。单击 URL 链接下载并安装 Nsight™ Visual Studio 版所需的必要软件。不会安装 Nsight for Visual Studio 2019 未安装Visual Studio 2019 社区版或更高版本。由于缺乏对插件的支持，不支持 Express 版本。不会安装 Nsight for Visual Studio 2017 未安装Visual Studio 2017 社区版或更高版本。由于缺乏对插件的支持，不支持 Express 版本。不会安装 Nsight for Visual Studio 2022 未安装Visual Studio 2022 社区版或更高版本。由于缺乏对插件的支持，不支持 Express 版本。 CUDA ToolKit 11.6.0 及更早版本包括不支持 VS2022 的 Nsight Visual Studio Edition (v2022.1.0) 版本。下载Nsight Visual Studio Edition v2022.2.1 或更高版本以获得 Visual Studio 2022 支持。

大家在看

最新文章

目录

展开全部

收起

评论 15

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。