机器学习实战ByMatlab（二）PCA算法

最新推荐文章于 2024-07-07 20:11:19 发布

Liu_LongPo

最新推荐文章于 2024-07-07 20:11:19 发布

阅读量7.2k

点赞数 21

分类专栏：计算机视觉 Machine Learning 机器学习原理及实战文章标签： pca

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/llp1992/article/details/45065609

版权

PCA（主成分分析）主要用于数据降维，解决特征过多或相关性高的问题。PCA通过求解协方差矩阵的特征值和特征向量，将数据映射到新的正交特征空间，保留最大方差。本文介绍了PCA的计算过程和理论基础，并提供了Matlab实现的调用方式和效果图。

摘要由CSDN通过智能技术生成

【原创】Liu_LongPo 转载请注明出处
【CSDN】http://blog.csdn.net/llp1992

PCA 算法也叫主成分分析（principal components analysis），主要是用于数据降维的。

为什么要进行数据降维？因为实际情况中我们的训练数据会存在特征过多或者是特征累赘的问题，比如：

一个关于汽车的样本数据，一个特征是”km/h的最大速度特征“，另一个是”英里每小时“的最大速度特征，很显然这两个特征具有很强的相关性
拿到一个样本，特征非常多，样本缺很少，这样的数据用回归去你和将非常困难，很容易导致过度拟合

PCA算法就是用来解决这种问题的，其核心思想就是将 n 维特征映射到 k 维上（k < n），这 k 维是全新的正交特征。我们将这 k 维成为主元，是重新构造出来的 k 维特征，而不是简单地从 n 维特征中取出其余 n-k 维特征。

PCA 的计算过程

假设我们得到 2 维数据如下：

其中行代表样例，列代表特征，这里有10个样例，每个样例有2个特征，我们假设这两个特征是具有较强的相关性，需要我们对其进行降维的。

第一步：分别求 x 和 y 的平均值，然后对所有的样例都减去对应的均值

这里求得 x 的均值为 1.81 ， y 的均值为 1.91，减去均值后得到数据如下：

注意，此时我们一般应该在对特征进行方差归一化，目的是让每个特征的权重都一样，但是由于我们的数据的值都比较接近，所以归一化这步可以忽略不做

第一步的算法步骤如下：

本例中步骤3、4没有做。

第二步：求特征协方差矩阵

公式如下：

第三步：求解协方差矩阵的特征值和特征向量

第四步：将特征值从大到小进行排序，选择其中最大的 k 个，然后将其对应的 k 个特征向量分别作为列向量组成特征矩阵

这里的特征值只有两个，我们选择最大的那个，为： 1.28402771 ，其对应的特征向量为：

注意：matlab 的 eig 函数求解协方差矩阵的时候，返回的特征值是一个特征值分布在对角线的对角矩阵，第 i 个特征值对应于第 i 列的特征向量

第五步：将样本点投影到选取的特征向量上

假设样本列数为 m ，特征数为 n ，减去均值后的样本矩阵为 DataAdjust(m*n),协方差矩阵为 n*n ,选取 k 个特征向量组成后的矩阵为 EigenVectors(n*k)，则投影后的数据 FinalData 为：

FinalData （m*k） = DataAdjust(m*n) X EigenVectors(n*k)

得到的结果是：

这样，我们就将 n 维特征降成了 k 维，这 k 维就是原始特征在 k 维上的投影。

整个PCA的过程貌似很简单，就是求协方差的特征值和特征向量，然后做数据转换。但为什么协方差的特征向量就是最理想的 k 维向量？这个问题由PCA的理论基础来解释。

PCA 的理论基础

关于为什么协方差的特征向量就是 k 维理想特征，有3个理论，分别是：

最大方差理论

最小错误理论

坐标轴相关度理论

这里简单描述下最大方差理论：

最大方差理论

信号处理中认为信号具有较大的方差，噪声有较小的方差，信噪比就是信号与噪声的方差比，越大越好。因此我们认为，最好的 k 为特征既是将 n 维样本点转换为 k 维后，每一维上的样本方差都很大

PCA 处理图解如下：

降维转换后：

最低0.47元/天解锁文章

关注

21
点赞
踩
15

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。