python主成分分析法降维_【数据降维】主成分分析法

最新推荐文章于 2024-07-03 09:14:26 发布

何木匠

最新推荐文章于 2024-07-03 09:14:26 发布

阅读量939

点赞数

文章标签： python主成分分析法降维

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42400669/article/details/111969593

版权

主成分分析(PCA)是数据降维的常用方法，通过线性变换减少特征数量，同时保留大部分信息。PCA算法包括变量标准化、求协方差矩阵、特征值和向量等步骤，生成的新变量是原有变量的线性组合。在R语言中，`princomp()`函数可用于执行PCA，输出包括新变量的方差贡献率和生成方式。

摘要由CSDN通过智能技术生成

主要内容本系列马上就要进入建模的阶段了，但是在这之前还有一些准备工作要做，能让我们最终得到的分析结果更好，数据降维便是其中之一。

数据降维实际上是对输入特征的一次精简。通常来说当我们已经通过数据处理得到了一组变量(特征)之后，我们并不会直接将这些变量输入某种统计模型(比如SVM)。因为第一，某些变量之间可能存在着某种线性非线性的关系，如果一股脑将全部变量都输入模型可能会影响模型的精度。第二，变量(特征)数量相对数据条数有可能过大，从而不符合某些模型的需求。打个比方，如果你有100条数据，却有200个特征，那么大多数的模型都回报错，提醒你变量(特征)数量太多。

正是由于以上的原因也是为了更好的理解数据，阅读数据的信息，我们会采用一些数据降维的办法对变量(特征)数目进行一定程度的缩减，在不丢失绝大多数信息的前提下尽可能的生成解释力更强的特征，同时去除不必要的特征。

我们这篇文章主要介绍的就是主成分分析法。主成分分析(Principal Component Analysis，PCA)大概是数据降维最常用的方法之一了，主要通过线性变换的方式，达到特征压缩解释变量的目的。该算法主要分为6个步骤：

1)构建p*n阶的变量矩阵

2)将p*n阶的变量矩阵X的每一行(代表一个属性字段)进行标准化

3)求出协方差矩阵C

4)求出协方差矩阵的特征值及对应的特征向量

5)将特征向量按对应特征值大小从上到下按行排列成矩阵，取前k列组成矩阵P

6)Y=XP即为降维到k维后的数据

2-5所设计的算法步骤，主要是为了找到p个变量的正规化线性组合，从而使它的方差达到最大。在本篇文章里我们并不会对其中所涉及的数学推导进行解读

最低0.47元/天解锁文章

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
python主成分分析法降维_【数据降维】主成分分析法

主要内容本系列马上就要进入建模的阶段了，但是在这之前还有一些准备工作要做，能让我们最终得到的分析结果更好，数据降维便是其中之一。数据降维实际上是对输入特征的一次精简。通常来说当我们已经通过数据处理得到了一组变量(特征)之后，我们并不会直接将这些变量输入某种统计模型(比如SVM)。因为第一，某些变量之间可能存在着某种线性非线性的关系，如果一股脑将全部变量都输入模型可能会影响模型的精度。第二，变量(特...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。