主成分分析（PCA）及其可视化——python

原创

已于 2022-03-13 20:25:46 修改 · 10w+ 阅读

·

288

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#big data #大数据 #matlab #python

于 2021-11-17 18:58:22 首次发布

本文详细介绍主成分分析（PCA）的基本原理及其实现步骤，并通过Python案例演示如何进行PCA分析，包括数据预处理、特征值计算及可视化等关键环节。

可以看看这个哦python入门：Anaconda和Jupyter notebook的安装与使用_菜菜笨小孩的博客-CSDN博客

如果你学会了python 可以看看matlab的哦

主成分分析（PCA）及其可视化——matlab_菜菜笨小孩的博客-CSDN博客

目录

一、主成分分析的原理

二、主成分分析步骤

1.主成分分析的步骤：

（1）球形检验（Bartlett)

（2）KMO（Kaiser-Meyer-Olkin)统计量

（3）主成分分析的逻辑框图

三、所用到的库 factor_analyzer库

四、案例实战

3.读取数据集

4.进行球状检验

6.求相关矩阵

（1）数据标准化做法

1.进行标准化

2.求相关系数矩阵

3.求解特征值和特征向量

（2）数据不标准化做法

2.查看列数和行数

3.写出同数据集一样的均值矩阵

4.对数据集进行去中心化

5.计算协方差阵

6.计算协方差阵的特征值和特征向量

7.对特征值进行排序并输出降序

8.绘制散点图和折线图

9.求特征值的贡献度

10.求特征值的累计贡献度

11.选出主成分

12.选出主成分对应的特征向量矩阵

13.求主成分得分

14.绘制热力图

完整代码：

一、主成分分析的原理

主成分分析是利用降维的思想，在损失很少信息的前提下把多个指标转化为几个综合指标的多元统计方法。通常把转化生成的综合指标称之为主成分，其中每个主成分都是原始变量的线性组合，且各个主成分之间互不相关，这就使得主成分比原始变量具有某些更优越的性能。这样在研究复杂问题时就可以只考虑少数几个主成分而不至于损失太多信息，从而更容易抓住主要矛盾，揭示事物内部变量之间的规律性，同时使问题得到简化，提高分析效率。

主成分分析正是研究如何通过原来变量的少数几个线性组合来解释原来变量绝大多数信息的一种多元统计方法。

二、主成分分析步骤

1.主成分分析的步骤：

1.根据研究问题选取初始分析变量；

2.根据初始变量特性判断由协方差阵求主成分还是由相关阵求主成分（数据标准化的话需要用系数相关矩阵，数据未标准化则用协方差阵）；

3.求协差阵或相关阵的特征根与相应标准特征向量；

4.判断是否存在明显的多重共线性，若存在，则回到第一步；

5.主成分分析的适合性检验

6.得到主成分的表达式并确定主成分个数，选取主成分；

7.结合主成分对研究问题进行分析并深入研究。

2.部分说明

一组数据是否可以用主成分分析，必须做适合性检验。可以用球形检验和KMO统计量检验。（1）球形检验（Bartlett)

球形检验的假设：

H0：相关系数矩阵为单位阵（即变量不相关）

H1：相关系数矩阵不是单位阵（即变量间有相关关系）

2）KMO（Kaiser-Meyer-Olkin)统计量

KMO统计量比较样本相关系数与样本偏相关系数，它用于检验样本是否适于作主成分分析。

KMO的值在0,1之间，该值越大，则样本数据越适合作主成分分析和因子分析。一般要求该值大于0.5，方可作主成分分析或者相关分析。

Kaiser在1974年给出了经验原则：

0.9以上适合性很好

0.8~0.9 适合性良好

0.7~0.8 适合性中等

0.6~0.7 适合性一般

0.5~0.6 适合性不好

0.5以下不能接受的

（3）主成分分析的逻辑框图

三、所用到的库 factor_analyzer库

1. pandas

pip instal  pandas

2.numpy

pip install numpy

3.matplotlib

pip install matplotlib

四、案例实战

1.数据集

数据集aa.xls - 蓝奏云不能直接分享csv文件

2.导入库

导入数据处理和分析所需要的库：

# 数据处理
import pandas as pd
import numpy as np

最低0.47元/天解锁文章

200万优质内容无限畅学

博客等级

码龄11年

292
原创

2238
点赞

1万+
收藏

2113
粉丝

关注

私信

热门文章

分类专栏

展开全部收起

上一篇：: 主成分分析（PCA）及其可视化——matlab

下一篇：: 多元线性回归模型-数学建模类-matlab详解

最新评论

最全python爬虫库安装详解
北风之神c: 总结的很全面的爬虫，写得赞，博主用心了。此国产分布式函数调度框架 funboost python万能通用函数加速器 https://funboost.readthedocs.io/zh-cn/latest/articles/c8.html ，只需要@boost一行代码，加到任意新/旧爬虫项目就又强又自由又简单。 funboost 分布式函数调度框架，定位于调度用户的任何函数，只要用户在函数里面写爬虫代码，就可以分布式调度爬虫，此框架如果用于爬虫，不管从任何方面比较可以领先scrapy 20年，也比任意写的爬虫框架领先10年。普通爬虫框架一般就设计为url请求调度框架，url怎么请求都是被框内置架束缚死了，所以有些奇葩独特的想法在那种框架里面难以实现，用户需要非常之精通框架本身然后改造框架才能达到随心所欲的驾驭的目的。普通的爬虫框架与用户手写requests 请求解析存储，在流程逻辑上是严重互斥的，要改造成使用那种框架改造需要大改特改。而此框架是函数调度框架，函数里面用户可以随意写一切任意自由想法，天生不会有任何束缚。与用户使用别的爬虫框架或者无框架用户手写多线程爬虫相比， funboost都代码更少更强更简单更自由。 pip install boost_spider (powerd by funboost ，boost_spider比funboost增加了更加专门的针对爬虫请求和解析和存储） https://github.com/ydf0509/boost_spider 依托于funboost的强大可视化管理，不登录机器可以轻松掌控分布式大规模爬虫运行状态，一目了然。可视化截图： https://funboost.readthedocs.io/zh-cn/latest/articles/c13.html
整数线性规划实现（matlab分枝界定法）
2401_84443789: 这个代码用什么软件可以执行
主成分分析（PCA）及其可视化——python
IParanoea: 我想的是不排序，只比较大小，找出前两位的特征值及相应的特征向量，不知道您是不是还有其他方法
粒子群优化(PSO)算法例题实现
云边小卖部～: 就是没有写这个函数
智能计算之蚁群算法(ACO)介绍
yanxiaoyu110: 这是哪本书啊

大家在看

最新文章

目录

展开全部

收起

评论 102

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。