主成分分析法
主成分分析法就是一种运用线性代数的知识来进行数据降维的方法,它将多个变量转换为少数几个不相关的综合变量来比较全面地反映整个数据集。这是因为数据集中的原始变量之间存在一定的相关关系,可用较少的综合变量来综合各原始变量之间的信息。这些综合变量称为主成分,各主成分之间彼此不相关,即所代表的的信息不重叠。
- 基本思想及方法
如果用 L 表示 x 1 , x 2 , . . . x p x_1,x_2,...x_p x1,x2,...xp门课程, c 1 , c 2 , . . . c p c_1,c_2,...c_p c1,c2,...cp 表示各门课程的权重,那么加权
之和就是
s= x 1 c 1 + x 2 c 2 + . . . x p c p x_1c_1+x_2c_2+...x_pc_p x1c1+x2c2+...xpcp
我们希望选择适当的权重能更好地区分学生的成绩。每个学生都对应一个这样的综合成
绩,记为 s 1 , s 2 , . . . s n s_1,s_2,...s_n s1,s2,...sn ,n 为学生人数。如果这些值很分散,表明区分得好,即是说,
需要寻找这样的加权,能使 s 1 , s 2 , . . . s n s_1,s_2,...s_n s1,s2,...sn 尽可能的分散,下面来看它的统计定义。
X 1 , X 2 , . . . X p X_1,X_2,...X_p X1,X2,...Xp 表示以 x 1 , x 2 , . . . x p x_1,x_2,...x_p x1,x2,...xp 为样本观测值的随机变量,如果能找到
c 1 , c 2 , . . . c p c_1,c_2,...c_p c1,c2,...cp,使得
Var( X 1 c 1 + X 2 c 2 + . . . X p c p X_1c_1+X_2c_2+...X_pc_p X1c1+X2c2+...Xpcp)
的值达到最大,则由于方差反映了数据差异的程度,因此也就表明我们抓住了这 p 个
变量的最大变异。当然,(15)式必须加上某种限制,否则权值可选择无穷大而没有意
义,通常规定
c 1 2 + c 2 2 + . . . c p 2 = 1 c_1^2+c_2^2+...c_p^2=1 c12+c22+...cp2=1
在此约束下,求上式的最优解。由于这个解是 p − 维空间的一个单位向量,它代表
一个“方向”,它就是常说的主成分方向。
一个主成分不足以代表原来的 p 个变量,因此需要寻找第二个乃至第三、第四主
成分,第二个主成分不应该再包含第一个主成分的信息,统计上的描述就是让这两个主
成分的协方差为零,几何上就是这两个主成分的方向正交。
1)主成分分析的结果受量纲的影响,由于各变量的单位可能不一样,如果各自改
变量纲,结果会不一样,这是主成分分析的最大问题,回归分析是不存在这种情况的,
所以实际中可以先把各变量的数据标准化,然后使用协方差矩阵或相关系数矩阵进行分
析。
2)使方差达到最大的主成分分析不用转轴(由于统计软件常把主成分分析和因子
分析放在一起,后者往往需要转轴,使用时应注意)。
3)主成分的保留。用相关系数矩阵求主成分时,Kaiser主张将特征值小于1的主成
分予以放弃(这也是SPSS软件的默认值)。
4)在实际研究中,由于主成分的目的是为了降维,减少变量的个数,故一般选取
少量的主成分(不超过5或6个),只要它们能解释变异的70%~80%(称累积贡献率)
就行了。
2.应用与实例