特征降维分析-PCA主成分分析，贡献度计算

risen2020

已于 2024-08-24 10:34:19 修改

阅读量309

点赞数 3

分类专栏：数据降维文章标签： matlab

于 2024-08-24 10:17:16 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/risen2020/article/details/141494911

版权

数据降维专栏收录该内容

1 篇文章 0 订阅

订阅专栏

数据降维是指将高维度的数据映射到低维度的空间中，同时保留数据中的重要信息。这种降维的操作可以帮助我们更好地理解和处理数据，并且可以降低计算的复杂度，提高机器学习算法的效率和准确率。

主成分分析（Principal Component Analysis，PCA)，是一种降维技术，其目标是从给定的特征中生成新的特征，而不仅仅是挑选已有的特征。这些新的特征，称为主成分，是原始特征的线性组合。在PCA中，主成分是按照它们所捕获的方差的降序排列的。选择前几个主成分就可以实现降维，因为这些主成分包含了原始数据中大部分的方差信息。通过舍弃方差较小的主成分，可以实现数据的降维，同时尽可能保留原始数据的信息。

PCA是一个非监督的机器学习算法，是一种用于探索高维数据结构的技术，主要用于对数据的降维，通过降维可以发现更便于人理解的特征，加快对样本有价值信息的处理速度，此外还可以应用于可视化（降到二维）和去噪。基本原理是通过线性变换将原始数据投影到新的坐标系，使得投影后的数据方差最大。PCA算法所要达到的目标是，降维后的数据所损失的信息量应该尽可能的少。

PCA降维准则：

PCA的主要思想是将n维特征映射到k维上，这k维是全新的正交特征也被称为主成分，是在原有n维特征的基础上重新构造出来的k维特征。整体和原样本的分布并没有多大的差距，点和点之间的距离更大了，区分度也更加明显。

最近重构性：样本集中所有点，重构后的点距离原来的点的误差之和最小。

最大可分性：样本在低维空间的投影尽可能分开。

PCA算法实现

（1）数据中心化：对X中的每一行(即一个特征属性)进行零均值化，即减去这一行的均值。

（2）求出数据中心化后矩阵X的协方差矩阵(即特征与特征之间的协方差构成的矩阵)。

（3）求解协方差矩阵的特征值和特征向量。

（4）将特征向量按照特征值从大到小按列进行排列称为矩阵，获取最前面的k列数据形成矩阵W。

（5）利用矩阵W和样本集X进行矩阵的乘法得到降低到k维的最终数据矩阵。

PCA算法效果展示

关注

3
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。