主成分分析的主要目的是希望用较少的变量去解释原来资料中的大部分变异,将许多相关性较高的变量转化为彼此相互独立或不相关的变量。
通常是选出的比原始变量个数少,能解释大部份资料中的变异的几个新变量,即所谓主成分,并用以解释资料的综合性指标。
主成分分析实际上是一种降维方法。
基本思想及方法
- 主成分分析的结果受量纲的影响,由于各变量的单位可能不一样,如果各自改变量纲,结果会不一样,这是主成分分析的最大问题,回归分析是不存在这种情况的,所以实际中可以先把各变量的数据标准化,然后使用协方差矩阵或相关系数矩阵进行分析。
- 使方差达到最大的主成分分析不用转轴(由于统计软件常把主成分分析和因子分析放在一起,后者往往需要转轴,使用时应注意)。
- 主成分的保留。用相关系数矩阵求主成分时,Kaiser主张将特征值小于1的主成分予以放弃(这也是SPSS软件的默认值)。
- 在实际研究中,由于主成分的目的是为了降维,减少变量的数,故一般选取少量的主成分(不超过5或6个),只要它们能解释变异的70%~80%(称累积贡献率)就行了
特征因子的筛选
矩阵X即为设计阵。
主成分回归分析
主成分分析试图在力保数据信息丢失最少的原则下,对多变量的截面数据表进行最佳综合简化,也就是说,对高维变量空间进行降维处理。
主成分回归分析采用的方法是将原来的回归变量变换到另一组变量,即主成分,选择其中一部分重要的主成分作为新的自变量,丢弃一部分影响不大的自变量,实际上达到了降维的目的,然后用最小二乘法对选取主成分进行估计,最后再变换回原来的模型求出参数的估计值。