主成分分析方法

 
主成分分析方法(PCA算法)

对同一个体进行多项观察时,必定涉及多个随机变量X1X2Xp,它们都是的相关性, 一时难以综合。这时就需要借助主成分分析 (principal component analysis)来概括诸多信息的主要方面。我们希望有一个或几个较好的综合指标来概括信息,而且希望综合指标互相独立地各代表某一方面的性质。

任何一个度量指标的好坏除了可靠、真实之外,还必须能充分反映个体间的变异。如果有一项指标,不同个体的取值都大同小异,那么该指标不能用来区分不同的个体。由这一点来看,一项指标在个体间的变异越大越好。因此我们把“变异大”作为“好”的标准来寻求综合指标。

1.主成分的一般定义

设有随机变量X1X2Xp 其样本均数记为 ,样本标准差记为S1S2Sp。首先作标准化变换

我们有如下的定义:

    (1) C1=a11x1+a12x2+ +a1pxp ,且使 Var(C1)最大,则称C1为第一主成分;

    (2) C2=a21x1+a22x2+…+a2pxp (a21a22a2p)垂直于(a11a12a1p),且使Var(C2)最大,则称C2为第二主成分;

    (3) 类似地,可有第三、四、五主成分,至多有p个。

  

2.       主成分的性质   

   主成分C1C2Cp具有如下几个性质:

    (1) 主成分间互不相关,即对任意ijCi Cj的相关系数

Corr(CiCj)=0           i ¹ j                        

    (2) 组合系数(ai1ai2aip)构成的向量为单位向量,

                              

    (3) 各主成分的方差是依次递减的,

Var(C1)Var(C2)Var(Cp)  

    (4) 总方差不增不减

Var(C1)+Var(C2)+ … +Var(Cp)

                    =Var(x1)+Var(x2)+ … +Var(xp)

=p

这一性质说明,主成分是原变量的线性组合,是对原变量信息的一种改组,主成分不增加总信息量,也不减少总信息量。

(5) 主成分和原变量的相关系数 Corr(Cixj)=aij =aij

    (6) X1X2Xp的相关矩阵为R, (ai1ai2aip)则是相关矩阵R的第i个特征向量(eigenvector)。而且,特征值li就是第i主成分的方差,

Var(Ci)= li                                  

其中li为相关矩阵R的第i个特征值(eigenvalue)

l1l2≥…≥lp0

3.       主成分的数目的选取

前已指出,设有p个随机变量,便有p个主成分。由于总方差不增不减,C1C2等前几个综合变量的方差较大,CpCp-1等后几个综合变量的方差较小, 严格说来,只有前几个综合变量才称得上主()成份,后几个综合变量实为“次”()成份。实践中总是保留前几个,忽略后几个。

保留多少个主成分取决于保留部分的累积方差在方差总和中所占百分比(即累计贡献率),它标志着前几个主成分概括信息之多寡。实践中,粗略规定一个百分比便可决定保留几个主成分;如果多留一个主成分,累积方差增加无几,便不再多留。

4.主成分回归

    主成分分析本身往往并不是目的,而是达到目的的一种手段。因此,它多用在大型研究项目的某个中间环节。例如,把它用在多重回归中,便产生了主成分回归。另外,它还可以用于聚类、判别分析等。本节主要介绍主成分回归。

    在多重回归曾指出,当自变量间高度相关时,某些回归参数的估计值极不稳定,甚至出现有悖常理、难以解释的情形。这时,可先采用主成分分析产生若干主成分,它们必定会将相关性较强的变量综合在同一个主成分中,而不同的主成分又是互相独立的。只要多保留几个主成分,原变量的信息不致过多损失。然后,以这些主成分为自变量进行多重回归就不会再出现共线性的困扰。如果原有p个自变量X1X2Xp,那么,采用全部p个主成分所作回归完全等价于直接对原变量的回归;采用一部分主成分所作回归虽不完全等价于对原变量的回归,但往往能摆脱某些虚假信息,而出现较合理的结果。

以上思路也适用于判别分析,当自变量高度相关时,直接作判别分析同样有多重共线性问题,可先计算自变量的主成分,然后通过主成分估计判别函数。

相关英文连接 http://ordination.okstate.edu/PCA.htm

引用: http://hi.baidu.com/vandyliu/blog/item/9d889e0f4d2525ef37d122ee.html


  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值