一. 主成成分分析
1. 原理分析, 应用(应用举例)
什么是?
PCA是一种统计方法, 通过正交 变换将一组可能存在相关性的变量转换为一组线性不相关的变量, 转换后的这组变量叫做主成分.
(通俗的说就是将原来的线性相关的P个指标, 重新组合成一组线性不相关的综合指标来代替原来的指标)
PCA首先是由K.皮尔森对非随机变量引入的, 然后K.皮尔森将此方法推广到随机向量的情形. 信息的大小通常用离差平方和和方差来衡量.
基本思想:
最经典的做法就是用F1(第一个综合指标)的方差来表达, 即Var(F1)越大, 表示F1包含的信息越多. 因此在所有的线性组合中选组的F1应该是方差最大的, 故称F1为第一主成分. 如果第一主成分不足代表原来P个指标的信息, 再考虑选取F2即第二个线性组合, 为了有效地反映原来信息, F1已有的信息就不需要出现在F2中, 用数学语言表达就是要求cov(F1, F2)=0, 则称F2为第二个主成分, 一次类推可以构造出第三, 第四, .....第P个主成分.
步骤:
Fp = a1i*ZX1 + a2i*ZX2 + …… + api*ZXp
1. 指标数据标准化(spss软件自动执行)
2. 指标之间的相关性判定
3. 确定主成分个数m
4. 主成分Fi表达式
5. 主成分Fi命名
基本原理:
PCA是一种降维的统计方法, 它借助于一个正交变换,将其分量相关的原随机向量转化成其分量不相关的新随机向量,这在代数上表现为将原随机向量的协方差阵变换成对角形阵,在几何上表现为将原坐标系变换成新的正交坐标系,使之指向样本点散布最开的p 个正交方向,然后对多维变量系统进行降维处