python的pca计算累计贡献率_Python机器学习实战：维数约简之主成分分析(PCA)详解...

最新推荐文章于 2023-12-07 15:04:48 发布

weixin_39976413

最新推荐文章于 2023-12-07 15:04:48 发布

阅读量4.9k

点赞数 2

文章标签： python的pca计算累计贡献率

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_39976413/article/details/111439514

版权

本文通过一个虚拟数据集介绍了PCA（主成分分析）在机器学习中的应用，展示了如何使用sklearn库进行PCA操作，探讨了如何选择主成分个数以保留数据的大部分变异，并讨论了PCA的优缺点。

摘要由CSDN通过智能技术生成

机器学习实战：这里没有艰深晦涩的数学理论，我们将用简单的案例和大量的示例代码，向大家介绍机器学习的核心概念。我们的目标是教会大家用Python构建机器学习模型，解决现实世界的难题。

本文来自《数据黑客》，登录官网可阅读更多精彩资讯和文章。数据黑客 - 专注金融大数据的内容聚合和数据聚合平台finquanthub.com

1. 降维和PCA

PCA即主成分分析(Principal Component Analysis)，要理解PCA，首先要理解一个更广义的概念：降维。

降维即降低数据集的维度，这里的维度指的是输入变量或者特征的数量。机器学习算法要求输入是大小为(n_samples, n_features)的二维矩阵(类似excel表格)，n_samples是观测值的数量(行)，n_features是特征的数量(列)。

当数据集包含很多特征时，例如100个，如果把所有数据全部喂入模型，可能会导致糟糕的结果。在高维数据集中，往往只有部分特征有良好的预测能力，很多特征纯粹是噪音(没有预测能力)，很多特征彼此之间也可能高度相关，这些因素会降低模型的预测精度，训练模型的时间也更长。降低数据集的维度在某种程度上能解决这些问题。

降维算法的原理是通过捕捉特征之间的关联，创建新的特征来代替旧的特征，降维后的数据集要求保留原始数据的大部分变异。

PCA是最广泛使用的降维技术之一，它把大量的相关变量转化为几组无关变量，这些无关变量称为"主成分"。原理如下图所示。

下方的数学公式能帮助我们更好地理解PCA。假设数据集有10个特征：$X_1, X_2, X_3,

最低0.47元/天解锁文章

weixin_39976413

关注

2
点赞
踩
18

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。