主成分分析法
1、定义:
主成分分析旨在利用降维的思想,将原来众多具有一定相关性的指标x1.x2....xp重新组合成一组互不相关的综合指标Fm(主成分)来代替原指标 Fm=a1m*X1+a2m*X2.......+apm*Xp,其中每个主成分都能够反映原始变量的大部分信息,且所含信息互不重复,主成分Fm的方差Var(Fm)越大,其所含信息量越多,一般F1信息量最多,称为第一主成分。这种方法在引进多方面变量的同时将复杂因素归结为几个主成分,使问题简单化,同时得到的结果更加科学有效的数据信息。
2、基本原理
基本思想是将原来众多的具有一定相关性的指标X1,X2,„,XP(比如p个指标),重新组合成一组较少个数的互不相关的综合指标Fm来代替原来指标。设F1表示原变量的第一个线性组合所形成的主成分指标, 即F1=a11*X1+a21*X2.......+ap1*Xp
每一个主成分所提取的信息量可用其方差来度量,其方差Var(F1)越大,表示F1包含的信息越多。第一主成分F1所含的信息量最大,在所有的线性组合中选取的F1应该是X1,X2,„,XP的所有线性组合中方差最大的,故称F1为第一主成分。如果第一主成分不足以代表原来p个指标的信息,再考虑选取第二个主成分指标F2,为有效地反映原信息,F1已有的信息就不需要再出现在F2中,即F2与F1要保持独立、不相关,用数学语言表达就是其协方差Cov(F1, F2)=0,所以F2是与F1不相关的X1,X2.....XP的所有线性组合中方差最大的,故称F2为第二主成分,依此类推构造出的F1、F2......Fm为原变量指标X1、X2....XP第一、第二.....、第m个主成分。
3、算法步骤
(1)数据标准化
(2)计算协方差矩阵
计算样本数据的协方差矩阵:,其中
计算样本数据的协方差矩阵:,其中