线性代数笔记16：理解PCA

最新推荐文章于 2024-04-22 00:00:00 发布

zealscott

最新推荐文章于 2024-04-22 00:00:00 发布

阅读量585

点赞数

分类专栏： linear algebra 数据科学的线性代数基础文章标签： PCA 协方差矩阵 SVD

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/crazy_scott/article/details/80104245

版权

本文详细探讨了PCA（主成分分析）的基本思想和实现过程，从寻找最佳仿射变换的角度出发，解释了如何通过SVD求解PCA，以及PCA如何保留数据的最大方差。主要内容包括样本均值、协方差矩阵的计算，以及PCA对角化协方差矩阵的过程。

摘要由CSDN通过智能技术生成

在SVD的基础上，深入理解PCA。

本文涉及到仿射变换、SVD等多个概念，可以先看参考文献，本文作为复习理解之用。

基本思想

降维是机器学习中很常见的一种思维方式，一般来说，可以通过线性投影和非线性映射进行。

PCA是一种简单的线性映射，当考虑降维时，我们一般有两种思路：

找到d-维仿射变换子空间，在合适的投影下，新的投影点与原先的投影点就接近。也就是说，在新投影下能最大限度的保持原数据的特征。
找到d-位投影，尽可能多的保留数据的变动（方差）。

我们将会从这两个思路分别进行求解，可以看到，这两个目标实际上等价。

定义

首先定义一些常用的量

样本均值

μ n = 1 n \sum n = 1 n x i

$\mu_n = \frac{1}{n}\sum\limits_{n = 1}^{n}x_i$

样本协方差

\sum n = 1 n - 1 \sum i = 1 n (x i - μ i) (x i - μ i) T

$\sum_n = \frac{1}{n-1}\sum\limits_{i=1}^{n}(x_i - \mu_i)(x_i - \mu_i)^T$

其中 $x_i$ 为数据样本（列向量），因此可以得到 $X = (x_1,...,x_n)$ 为 $p\times n$ 矩阵，因此，写成矩阵的形式为

\sum n = 1 n - 1 (X - μ n 1) (X - μ 1) T

$\sum_n = \frac{1}{n-1}(X - \mu_n1)(X - \mu1)^T$

直观理解

首先，让我们用不是很严格的数学公式来直观理解PCA。

我们很常见的思想是使得协方差矩阵的方差尽可能大（保留更多有效信息），而让协方差尽可能的小（防止数据冗余），在协方差矩阵中则表现为对角矩阵 $D$ 。

我们令经过d-维基 $V$ 变换后的新坐标为 $y$ ，因此可得：

\begin{aligned} (1) & D & = y y^{T} \\ (2) & = V x (V x)^{T} \\ (3) & = V x x^{T} V^{T} \\ (4) & = V \sum_{n} V^{T} \end{aligned}

$\begin{align} D &= yy^T \\& =Vx(Vx)^T\\& = Vxx^TV^T \\&= V\sum_nV^T\end{align}$

这个式子有着特殊的含义。其中， $D$ 是新的协方差矩阵（对角矩阵），而 $\sum_n$ 则是原始数据的协方差矩阵， $V$ 则是d-维正交基。

因此，这个式子可以理解为：对协方差矩阵 $\sum_n$ ，找一个 $V$ ，使得其转变为对角矩阵。而协方差矩阵是实对称矩阵，一定能够对角化，证明了这一点的完备性。

因此，我们只需要对协方差矩阵进行对角化，然后求出其对应的特征向量，即为新坐标下的正交基 $V$ 。对 $y = Vx$ 进行坐标变换则求到了新坐标下的PCA坐标。

PCA是最佳的仿射变换拟合

我们要对每个近似 $x_i$ 近似（由仿射变换的定义）：

x i \approx μ + \sum j = 1 d β j i v j

$x_i \approx \mu + \sum\limits_{j= 1}^{d} \beta_i^jv_j$

其中， $V_{p\times d} = (v_1,..,v_d)$ 为d-维子空间中的标准正交基， $\mu \in R^p$ 是平移量， $\beta_j$ 为在基

最低0.47元/天解锁文章

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

zealscott CSDN认证博客专家 CSDN认证企业博客

码龄7年

196: 原创

3万+: 周排名

198万+: 总排名

70万+: 访问

: 等级

6982: 积分

318: 粉丝

387: 获赞

118: 评论

1757: 收藏

私信

关注

热门文章

分类专栏

最新评论

KMP算法详解（C++实现）
2401_84256088: 又臭又长还有错，看我写的 /** * @param s 待匹配的字符串 * @param p 模式串 * @return s是否包含p * next[j]表示以p[j]结尾的子串，的最长相等先后缀的长度 */ bool kmp (const string &s, const string &p) { int n = s.size(), m = p.size(), next[m], i, j, k; next[0] = 0; for (j = 1; j < m; j++) { for (k = next[j-1]; k && p[j] != p[k]; k = next[k - 1]); next[j] = p[j] == p[k] ? k + 1 : 0; } for (i = 0, j = 0; i < n && j < m;) { if (s[i] == p[j]) i++, j++; else j = next[j]; } return j == m; }
矩阵求导法则与性质
Jerry fk: 我也在纠结这玩意儿，我刚看了定义，他那个刚好写反了
hexo下LaTeX无法显示的解决方案
风翼飞镰: 这是关键啊:CDN地址！
python plot hist 密度图概率和不为1
尚未填写: 有用，感谢！想要绘制多组数据的概率图的话，只需把不同的weights添加到一个列表即可，比如： x_value = [train_points, test_points] train_weights = np.ones_like(train_points)/float(len(train_points)) test_weights = np.ones_like(test_points)/float(len(test_points)) weights = [train_weights, test_weights] plt.hist(x_value, bins=10, histtype="bar", alpha=0.5, label=["training set", "test set"], weights=weights) plt.legend() plt.show()
根据坐标点位置计算方位角（python实现）
Auto_yaoyao: 请问你计算的方位角是地面的？是当前时刻还是下一时刻

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。