主成分分析思想 核心思路
总体主成分推导
基于标准化变量的总体主成分分析
主成分分析(PCA)就是在所有可能的Y1,...,Yn的线性组合模式中,寻找一个或几个(通常小于n个)可以最大程度区分变量的线性组合/加权平均。即期望能将手中许多相关性很高的变量转化成相互独立的变量,并能解释大部分资料之变异的几个新变量,也就是所谓的主成分。
总体主成分分析推导
记原始变量 y=(Y1,......,Yp)’ ,其协方差矩阵为
主成分分析试图定义一组互不相关的变量,称为Y1,........Yp的主成分(PC),记为Z1,......Zp,每一主成分都是Y1,。。。。Yp的线性组合:
则Z1,......,Zp的方差与协方差为
求解主成分Z1,.......,Zp即求解a1,。。。。,ap
主成分(PC)Z1,........,Zp按照”方差贡献度“依次导出:
第一主成分Z1=a1‘y:在满足限制a1’a1=1时,最大化方差var(a‘y)
第二主成分Z2=a2’y:在满足限制a2'a2=1,且cov(a1‘y,a2’y)=0时,最大化方差var(a2‘y)
第j主成分Zj=aj'y:在满足限制aj’aj=1,且cov(ak‘y,aj’y)=0,k<j时,最大化方差var(aj‘y)
主成分(PC)Z1,.....,Zp按照“方差贡献度”依次导出:
第p主成分Zj=a‘y:在满足限制ap’ap=1时,最小化方差var(ap‘y)
定理:
记(1,e1),。。。。(p,ep)为协方差矩阵的特征值-特征向量,1>2≥。。。。≥p≥0并且特征向量e1, 。。。。ep是正交化特征向量。
则变量Y1,.....,Yp的第j个主成分由下式给出:
Zj=ej’y=ej1Y1+ej2Y2+ +ejpYp,j=1,.....,p,
这里有var(Zj)=ej‘ej=j
并且有cov(Zj,Zk)=ej‘