SVD与PCA之间的关系详解

最新推荐文章于 2024-08-13 19:12:47 发布

白马负金羁

最新推荐文章于 2024-08-13 19:12:47 发布

阅读量1.1w

点赞数 9

分类专栏：机器学习之道文章标签： PCA SVD 降维

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/baimafujinji/article/details/79407488

版权

机器学习之道专栏收录该内容

37 篇文章 1381 订阅 ¥19.90 ¥99.00

订阅专栏

超级会员免费看

本文深入探讨了数据矩阵X的SVD（奇异值分解）与PCA（主成分分析）之间的关系。在假设X已中心化的情况下，协方差矩阵C可通过XTX/(n-1)计算，并且任何对称矩阵都可以对角化，从而利用SVD进行PCA。文章还提到了如何使用SVD来执行PCA的方法。

摘要由CSDN通过智能技术生成

假设现在有一个数据矩阵 $\bf{X}$ ，其大小是 $n\times p$ ，其中 $n$ is the number of samples and $p$ is the number of variables （或features）。这里， $\bf{X}^T$ 可以写成 $\{x_1,x_2,\cdots,x_n\}$ ， ${x}_1$ 表示一个长度为 $p$ 的列向量，也就是说， $\bf{X}^T$ 包含 $n$ independent observations $x_1,x_2,\cdots,x_n$ ，其中每个都是一个 p-dimensional 的列向量，这与【7】中的写法相一致。

现在，不失普遍性地，让我们假设 $\bf{X}$ is centered, 即 column means have been subtracted and are now equal to zero。如果 $\bf{X}$ is not centered，也不要紧，我们可以通过计算其与centering matrix $\bf{H}$ 之间的乘法来对其中心化。 $\bf{H} = \bf{I}-ee^T/p$ , 其中 $e$ is a 每个元素都是1的 column vector。

基于上述条件，可知 $p\times p$ 大小的协方差矩阵 covariance matrix $\bf{C}$ 可由 $\bf{C}=\bf{X^TX}/(n-1)$ 给出。此处，我们稍微补充一下协方差矩阵与相关性矩阵（correlation matrix ）的一些内容。如果你对此已经非常了解，可以直接跳过这一部分。

如果 $X$ 和 $Y$ 是两个随机变量，with means (expected values) $μ_X$ and $μ_Y$ and standard deviations $σ_X$ and $σ_Y$ , respectively, then their covariance is

σ X Y = E [(X - μ X) (Y - μ Y)]

$\sigma _{XY}=E[(X-\mu _{X})\,(Y-\mu _{Y})]$
and correlation is:

ρ X Y = E [(X - μ X) (Y - μ Y)] / (σ X σ Y)

$\rho _{XY}=E[(X-\mu _{X})\,(Y-\mu _{Y})]/(\sigma _{X}\sigma _{Y})$
因此

covXY=σXY=ρXYσXσY ${\text{cov}}_{XY}=\sigma _{XY}=\rho _{XY}\sigma _{X}\sigma _{Y}$ 。

如果 $\bf{X}$ are centred data matrices of dimension $n\times p$ ，an unbiased estimator of the covariance matrix (sample covariance matrix)

C = 1 n - 1 X T X

$\bf{C}=\frac{1}{n-1}\bf{X}^T\bf{X}$
另一方面，如果 the column means were known a-priori, 则有

C = 1 n X T X

$\bf{C}=\frac{1}{n}\bf{X}^T\bf{X}$
最后，在MATLAB中计算covariance matrix 和 correlation matrix的方法可以参见【5】。

现在我们知道， $\bf{C}=\bf{X^TX}/(n-1)$ 是一个对称矩阵，因此它可以对角化，即

C = V Λ V T

$\bf{C}=\bf{VΛV^T}$
其中，

V $\bf{V}$ is a matrix of eigenvectors (each column is an eigenvector) and

Λ $\bf{Λ}$ is a diagonal matrix with eigenvalues

λi $λ_i$ in the decreasing order on the diagonal。

Any matrix has a singular value decomposition, so we have

X = U Σ V T

$\bf{X}=U\Sigma V^T$
应该注意到

X T X = (U Σ V T) T (U Σ V T) = V Σ T U T U Σ V T = V (Σ T Σ) V T

$\bf{X^TX}=(U\Sigma V^T)^T (U\Sigma V^T)=V\Sigma ^TU^TU\Sigma V^T=V(\Sigma ^T\Sigma)V^T$
这其实是特征值分解的结果，我们更进一步，把

C $\bf{C}$ 引入，则有

C = 1 n - 1 X T X = 1 n - 1 V (Σ T Σ) V T = V Σ 2 n - 1 V T

$\bf{C}=\frac{1}{n-1}\bf{X}^T\bf{X}=\frac{1}{n-1}V(\Sigma ^T\Sigma)V^T=V\frac{\Sigma ^2}{n-1}V^T$
也就是说，Covariance matrix

C $\bf{C}$ 的特征值

λi $\lambda_i$ 与矩阵

X $\bf{X}$ 的奇异值

σi $\sigma_i$ 之间的关系是

σ2i=(n−1)λi $\sigma_i^2=(n-1)\lambda_i$ 。

X $\bf{X}$ 的右singular matrix

V $\bf{V}$ 中的列是与上述主成分相对应的主方向（principal directions）。最后，

X V = U Σ V T V = U Σ

$\bf{XV}=\bf{U\Sigma V^T V}=\bf{U\Sigma}$
则表明，

UΣ $\bf{U\Sigma}$ 就是主成分（PC）。

参考文献

【1】https://stats.stackexchange.com/questions/134282/relationship-between-svd-and-pca-how-to-use-svd-to-perform-pca
【2】https://intoli.com/blog/pca-and-svd/
【3】https://en.wikipedia.org/wiki/Estimation_of_covariance_matrices
【4】https://en.wikipedia.org/wiki/Covariance_and_correlation
【5】http://www.mathworks.com/help/stats/corrcov.html?s_tid=gn_loc_drop
【6】http://blog.csdn.net/baimafujinji/article/details/6474273
【7】http://blog.csdn.net/baimafujinji/article/details/79376378

白马负金羁

关注

9
点赞
踩
23

收藏

觉得还不错? 一键收藏
打赏
5
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 5

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

白马负金羁 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。