PCA算法和实例

最新推荐文章于 2024-06-11 23:57:42 发布

瑟荻

最新推荐文章于 2024-06-11 23:57:42 发布

阅读量1.1w

点赞数 4

分类专栏：机器学习文章标签： pca

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/neal1991/article/details/46571999

版权

机器学习专栏收录该内容

4 篇文章 1 订阅

订阅专栏

PCA算法

算法步骤：
假设有m条n维数据。
1. 将原始数据按列组成n行m列矩阵X
2. 将X的每一行（代表一个属性字段）进行零均值化，即减去这一行的均值
3. 求出协方差矩阵C=1/mXXT
4. 求出协方差矩阵的特征值以及对应的特征向量
5. 将特征向量按对应特征值大小从上到下按行排列成矩阵，取前k行组成矩阵P
6. Y=PX即为降维到k维后的数据

实例

这里写图片描述
以这个为例，我们用PCA的方法将这组二维数据降到一维
因为这个矩阵的每行已经是零均值，所以我们可以直接求协方差矩阵：

这里写图片描述
然后求其特征值和特征向量，求解后的特征值为：
λ1=2,λ2=2/5
其对应的特征向量分别是：

由于对应的特征向量分别是一个通解，c1和c2可取任意实数。那么标准化后的特征向量为：

这里写图片描述
因此我们的矩阵P是：

可以验证协方差矩阵C的对角化：

最好我们用P的第一行诚意数据矩阵，就得到了降维后的数据表示：

降维后的投影结果如下图：

PCA本质上是将方差最大的方向作为主要特征，并且在各个正交方向上将数据“离相关”，也就是让它们在不同的正交方向上没有相关性。
因此，PCA也存在一些限制，例如它可以很好地解除线性相关，但是对于高阶相关性就没有办法了。对于存在高阶相关性的数据，可以考虑Kernel PCA,通过Kernel将非线性相关转化为线性相关。另外，PCA假设数据各特征分布在正交方向上，如果在非正交方向上存在几个方差较大的方向，PCA的效果就大打折扣。
PCA是一种无参数技术，也就是说面对同样的数据，如果不考虑清晰，谁来做结果都一样，没有主观参数的介入，所以PCA便于通用实现，但是本身没有个性化的优化。

本文主要参考：http://blog.codinglabs.org/articles/pca-tutorial.html

关注

4
点赞
踩
39

收藏

觉得还不错? 一键收藏
2
评论
PCA算法和实例

PCA算法算法步骤：假设有m条n维数据。 1. 将原始数据按列组成n行m列矩阵X 2. 将X的每一行（代表一个属性字段）进行零均值化，即减去这一行的均值 3. 求出协方差矩阵C=1/mXXT 4. 求出协方差矩阵的特征值以及对应的特征向量 5. 将特征向量按对应特征值大小从上到下按行排列成矩阵，取前k行组成矩阵P 6. Y=PX即为降维到k维后的数据实例以这个为例，我们用PCA
复制链接

扫一扫

专栏目录

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。