主成成分分析

最新推荐文章于 2023-07-07 09:35:47 发布

一世温言

最新推荐文章于 2023-07-07 09:35:47 发布

阅读量4.9k

点赞数 4

本文链接：https://blog.csdn.net/weixin_42210632/article/details/83089653

版权

主成成分分析（PCA）是一种统计降维方法，通过正交变换将一组相关变量转换为一组线性不相关的主成分。PCA旨在最大化方差，减少数据的复杂性。本文介绍了PCA的基本原理、作用，以及一个使用TF-IDF的示例，并提供了使用sk-learn库进行PCA操作的参考链接。

摘要由CSDN通过智能技术生成

一. 主成成分分析

1. 原理分析, 应用(应用举例)

什么是?

PCA是一种统计方法, 通过正交变换将一组可能存在相关性的变量转换为一组线性不相关的变量, 转换后的这组变量叫做主成分.
(通俗的说就是将原来的线性相关的P个指标, 重新组合成一组线性不相关的综合指标来代替原来的指标)
PCA首先是由K.皮尔森对非随机变量引入的, 然后K.皮尔森将此方法推广到随机向量的情形. 信息的大小通常用离差平方和和方差来衡量.

基本思想:

最经典的做法就是用F1(第一个综合指标)的方差来表达, 即Var(F1)越大, 表示F1包含的信息越多. 因此在所有的线性组合中选组的F1应该是方差最大的, 故称F1为第一主成分. 如果第一主成分不足代表原来P个指标的信息, 再考虑选取F2即第二个线性组合, 为了有效地反映原来信息, F1已有的信息就不需要出现在F2中, 用数学语言表达就是要求cov(F1, F2)=0, 则称F2为第二个主成分, 一次类推可以构造出第三, 第四, .....第P个主成分.

步骤:

Fp = a1i*ZX1 + a2i*ZX2 + …… + api*ZXp
1. 指标数据标准化(spss软件自动执行)
2. 指标之间的相关性判定
3. 确定主成分个数m
4. 主成分Fi表达式
5. 主成分Fi命名

基本原理:

PCA是一种降维的统计方法, 它借助于一个正交变换，将其分量相关的原随机向量转化成其分量不相关的新随机向量，这在代数上表现为将原随机向量的协方差阵变换成对角形阵，在几何上表现为将原坐标系变换成新的正交坐标系，使之指向样本点散布最开的p 个正交方向，然后对多维变量系统进行降维处