主成成分分析

主成成分分析(PCA)是一种统计降维方法,通过正交变换将一组相关变量转换为一组线性不相关的主成分。PCA旨在最大化方差,减少数据的复杂性。本文介绍了PCA的基本原理、作用,以及一个使用TF-IDF的示例,并提供了使用sk-learn库进行PCA操作的参考链接。
摘要由CSDN通过智能技术生成

一. 主成成分分析

1. 原理分析, 应用(应用举例)

什么是?

PCA是一种统计方法, 通过正交 变换将一组可能存在相关性的变量转换为一组线性不相关的变量, 转换后的这组变量叫做主成分. 
(通俗的说就是将原来的线性相关的P个指标, 重新组合成一组线性不相关的综合指标来代替原来的指标)
PCA首先是由K.皮尔森对非随机变量引入的, 然后K.皮尔森将此方法推广到随机向量的情形. 信息的大小通常用离差平方和和方差来衡量. 

基本思想: 

最经典的做法就是用F1(第一个综合指标)的方差来表达, 即Var(F1)越大, 表示F1包含的信息越多. 因此在所有的线性组合中选组的F1应该是方差最大的, 故称F1为第一主成分. 如果第一主成分不足代表原来P个指标的信息, 再考虑选取F2即第二个线性组合, 为了有效地反映原来信息, F1已有的信息就不需要出现在F2中, 用数学语言表达就是要求cov(F1, F2)=0, 则称F2为第二个主成分, 一次类推可以构造出第三, 第四, .....第P个主成分. 

步骤: 

Fp = a1i*ZX1 + a2i*ZX2 + …… + api*ZXp
1. 指标数据标准化(spss软件自动执行)
2. 指标之间的相关性判定
3.  确定主成分个数m
4.  主成分Fi表达式
5. 主成分Fi命名

基本原理: 

PCA是一种降维的统计方法,  它借助于一个正交变换,将其分量相关的原随机向量转化成其分量不相关的新随机向量,这在代数上表现为将原随机向量的协方差阵变换成对角形阵,在几何上表现为将原坐标系变换成新的正交坐标系,使之指向样本点散布最开的p 个正交方向,然后对多维变量系统进行降维处

  • 4
    点赞
  • 15
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值