多变量分析中的最大问题莫过于多元线性问题,SPSS降维分析中的主成分分析可以很好地解决这个问题。所谓主成分分析(PCA)也称主分量分析,是有Karl Pearson在1901年提出的,它旨在利用把多个变量指标转化为为少数几个综合指标,是问题的分析变得更加容易。
未经许可请勿转载
更多数据分析内容参看这里
一. 相关理论
- 基本原理
将多个变量指标通过线性变换浓缩为少数几个主成分指标的多元统计方法。基本思想是把原来多个相关性较强的变量,重新整合为一组互不相关的新的综合指标来代替原来的变量。借助于一个正交变换,将其分量相关的原始随机向量转换成分量不相关的新随机向量。在代数上表现为将原随机向量的协方差阵变换成对角型阵,在几何上表现为将原坐标系变成新的正交坐标系,使之指向样本点散步最开的P个正交方向,然后对多维变量系统进行降维处理,使之能以一个较高的精度转换成低维变量系统,再通过构造适当的价值函数,进一步把低维系统转化为一维系统。方差较大的几个新变量能综合反映原来多个变量包含的主要信息。这几个新变量就是主成分。
2. 主成分数量筛选依据
(1)累积方差贡献率:当前m个主成分的累积方差贡献率达到某一特定值(一般80%以上),就可以保留前m个主成分
(2)特征值:一般选取特征值大于等于1的主成分
(3)碎石图:一般选取碎石图的曲线上由陡峭变为舒缓的结点前的碎石为主成分
3. 主成分分析中的主要统计量
(1)方差贡献率:指的是一个主成分所能够解释的方差占全部方差的比例,这个值越大,说明主成分综合原始变量的信息的能力越强。
方差贡献率的计算公式为:
相应的,主成分筛选中所确定的前m个主成分所能解释的全部方差占总方差的比例称为累计方差贡献率。其公式为:
第一主成分的方差贡献率最大,他能解释原始变量X1,X2....,Xp的能力最强,第2,第3,...第p个主成分的解释能力一次递减。
(2)特征值:衡量主成分影响力的重要指标,它代表引入该主成分可以解释平均多少原始标量的信息。求出特征值后要按大小予以排列: