一 概述
主成成分分析(Principal Component Analysis,简称PCA),将多个变量通过线性变换以选出个数较少重要变量的一种多元统计分析方法。
问题:多变量表达信息时,增加信息处理的复杂性。
解决办法:直接想法就是减少变量的个数,但是这样做可能会导致信息缺失。因此,我们希望找到一种能减少变量个数且最大限度的保持原有信息的方法。PCA就是以最少的信息丢失为前提,将众多的原有变量综合成一组新的互相无关的几个综合变量。(为什么是线性无关呢,因为当两个变量线性相关时,表示变量表达的信息可能有重叠,就正如线性代数中一个向量由三个线性相关的向量表示,它也可以由两个线性无关的向量表示。)
二 原理
提到要转换成一组新的较少个数的互不相关的综合变量,那么综合变量应该如何提取,使其既能最大程度的反映原变量所代表的信息,又能保证新变量之间保持相互无关(信息不重叠)。
假设原有变量为X1,X2,···,Xp,F1表示原变量的第一个线性组合所形成的主成分变量,即
F1 =a11X1+a12X2+···+a1pXp ,
由数学知识可知,每一个主成分所提取的信息量可用其方差来度量,其方差Var(F1)越大,表示F1包含的信息越多。我们希望第一主成分F1包含尽可能多的信息,因为这样才能用最少个数的变量保持原有的信息。因此在所有的线性组合中选取的F1应是方差最大的X1,X2,…,XP的线性组合,故称F1为第一主成分。如果第一主成分不足以代表原来p个变量的信息,再考虑选取第二个主成分F2,为有效地反映原信息,F1已有的信息就不需要再出现在F2中,即F2与F1要保持不相关,用数学语言表达就是其协方差Cov(F1, F2)=0,所以F2是与F1不相关的X1,X2,…,XP的所有线性组合中方差最大的,故称F2为第二主成分,依此类推构造出的F1、F2、……、Fm为原变量X1、X2……XP第一、第二、……、第m个主成分。