主成分分析法的原理应用及计算步骤-z
一、概述
在处理信息时,当两个变量之间有一定相关关系时,可以解释为这两个变量反映此课题的信息有一定的重叠
二、基本原理
主成分分析是数学上对数据降维的一种方法。其基本思想是设法将原来众多的具有一定相关性的指标X1,X2,…,XP(比如p个指标),重新组合成一组较少个数的互不相关的综合指标Fm来代替原来指标。那么综合指标应该如何去提取,使其既能最大程度的反映原变量Xp所代表的信息,又能保证新指标之间保持相互无关(信息不重叠)。
设F1表示原变量的第一个线性组合所形成的主成分指标,即,由数学知识可知,每一个主成分所提取的信息量可用其方差来度量,其方差Var(F1)越大,表示1包含的信息越多。因此在所有的线性组合中选取的1应该是1,X2,…,XP的所有线性组合中方差最大的,故称1为第一主成分如果第一主成分不足以代表原来个指标的信息,再考虑选取2,为有效地反映原信息,1已有的信息就不需要再出现2中,2与F1要保持独立、不相关,用数学语言表达就是Cov(F1, F2)=0,1不相关的X1,X2,…,XP的所有线性组合中方差最大的,故称2为第二主成分,依此类推构造出……、Fm为原变量指标X1、X2……XP第……、第个主成分。
根据以上分析得知:
(1) Fi与Fj互不相关,即Cov(Fi,Fj) = 0,并有Var(Fi)=ai’Σai,其中Σ为X的协方差阵
(2)F1是X1,X2,…,Xp的一切线性组合(系数满足上述要求)中方差最大的,…