《多元统计分析》学习笔记之主成分分析

鄙人学习笔记



主成分分析

主成分分析是利用降维的思想,在损失很少信息的前提下,把多个指标转化为几个综合指标的多元统计方法。
通常把转化生成的综合指标称为主成分,其中每个主成分都是原始变量的线性组合,且各个主成分之间互不相关,使得主成分比原始变量具有某些更优越的性能。

主成分分析的基本原理

在对某一事物进行实证研究时,为了更全面、准确地反映事物的特征及其发展规律,人们往往要考虑与其有关系的多个指标,这些指标在多元统计中也称为变量。这样就产生了如下问题:一方面人们为了避免遗漏重要的信息而考虑尽可能多的指标,另一方面考虑指标的增多增加了问题的复杂性,同时由于各指标均是对同一事物的反映,不可避免地造成信息的大量重叠,这种信息的重叠有时甚至会抹杀事物的真正特征与内在规律。基于上述问题,人们就希望在定量研究中涉及的变量较少,而得到的信息量又较多。
主成分分析正是研究如何通过原来变量的少数几个线性组合来解释原来变量绝大多数信息的一种多元统计方法。
既然研究某一问题涉及的众多变量之间有一定的相关性,就必然存在着起支配作用的共同因素。根据这一点,通过对原始变量相关矩阵或协方差矩阵内部结构关系的研究,利用原始变量的线性组合形成几个综合指标(主成分),在保留原始变量主要信息的前提下起到降维与简化问题的作用,使得在研究复杂问题时更容易抓住主要矛盾。

  • 主成分分析的基本思想

利用主成分分析得到的主成分与原始变量之间有如下基本关系:

(1)每一个主成分都是各原始变量的线性组合。
(2)主成分的数目大大少于原始变量的数目。
(3)主成分保留了原始变量绝大多数信息。
(4)各主成分之间互不相关。

  • 主成分分析的基本理论

对 X进行线性变换,可以形成新的综合变量,用 Y表示,也就是说,新的综合变量可以由原来的变量线性表示,即满足下式:

由于可以任意地对原始变量进行上述线性变换,由不同的线性变换得到的综合变量Y 的统计特性也不尽相同。因此为了取得较好的效果,我们总是希望Yi=ui’X的方差尽可能大且各Yi 之间互相独立,由于:

对于任意的常数c,有:

因此对ui 不加限制时,可使var(Yi)任意增大,问题将变得没有意义。我们将线性变换约束在下面的原则之下:

(1)ui’ui=1(i =1,2,…,p)。
(2)Yi 与Yj 相互无关(i ≠ j;i,j =1,2,…,p)。
(3)Y1 是X1,X2,…,Xp 的一切满足原则(1)的线性组合中方差最大者;Y2 是与Y1 不相关的X1,X2,…,Xp所有线性组合中方差最大者;…,Yp 是与Y1,Y2,…,Yp-1 都不相关的X1,X2,…,Xp 的所有线性组合中方差最大者。

基于以上三条原则决定的综合变量 Y1, Y2,…, Yp分别称为原始变量的第一、第二……第 p个主成分。其中,各综合变量在总方差中所占的比重依次递减。

  • 主成分分析的几何意义

主成分分析的过程无非就是坐标系旋转的过程,各主成分表达式就是新坐标系与原坐标系的转换关系,在新坐标系中,各坐标轴的方向就是原始数据变差最大的方向。

总体主成分及其性质

主成分分析的基本思想就是在保留原始变量尽可能多的信息的前提下达到降维的目的,从而简化问题的复杂性并抓住问题的主要矛盾。
而这里对于随机变量 X1, X2,…, Xp而言,其协方差矩阵或相关矩阵正是对各变量离散程度与变量之间的相关程度的信息的反映,而相关矩阵不过是将原始变量标准化后的协方差矩阵。
我们所说的保留原始变量尽可能多的信息,也就是指生成的较少的综合变量(主成分)的方差和尽可能接近原始变量方差的总和。因此在实际求解主成分的时候,总是从原始变量的协方差矩阵或相关矩阵的结构分析入手。

主成分
  • 引论

设矩阵 A′= A,将 A的特征值 λ1, λ2,…, λn依大小顺序排列,不妨设 λ1 ≥ λ2 ≥… ≥ λn, γ1, γ2,…, γp为矩阵 A各特征值对应的标准正交特征向量,则对任意向量 x,有

  • 从协方差阵出发求解主成分

设随机向量 X=( X1, X2,…, Xp)′的协方差矩阵为 ∑, λ1 ≥ λ2 ≥… ≥ λn为 ∑的特征值, γ1, γ2,…, γp为矩阵 A各特征值对应的标准正交特征向量,则第 i个主成分为:

此时:

Y的分量Y1,Y2,…,Yp依次是X的第一主成分、第二主成分……第p主成分的充分必要条件是:
(1)Y= P′ X,即 P为 p阶正交阵;
(2)Y的分量之间互不相关,即 D( Y)= diag( λ1, λ2,…, λp);
(3)Y的 p个分量是按方差由大到小排列,即: λ1 ≥ λ2 ≥… ≥ λn

主成分的性质

性质1: Y的协方差阵为对角阵
性质2:

  • 累计贡献率


主成分分析是把 p个随机变量的总方差分解为 p个不相关的随机变量的方差之和,使第一主成分的方差达到最大。
第一主成分是以变化最大的方向向量各分量为系数的原始变量的线性函数,最大方差为 λ1
α1表明了 λ1的方差在全部方差中的比值,称 α1为第一主成分的贡献率。这个值越大,表明 Y1这个新变量综合 X1, X2,…, Xp信息的能力越强,也即由 Y1的差异来解释随机向量 X的差异的能力越强。

进行主成分分析的目的之一是减少变量的个数,所以一般不会取 p个主成分,而是取 m< p个主成分。 m取多少比较合适,是一个很实际的问题,通常以所取 m使得累积贡献率达到 85%以上为宜。

  • 因子载荷量

第 k个主成分 Yk与原始变量 Xi的相关系数 ρ( Yk, Xi)称为因子负荷量。

因子负荷量的绝对值大小刻画了该主成分的主要意义及其成因。

性质3:

因子负荷量 ρ(Yk, Xi)与系数 γik成正比,与 Xi的标准差成反比关系,因此,绝不能将因子负荷量与系数向量混为一谈。在解释主成分的成因或第 i个变量对第 k个主成分的重要性时,应当根据因子负荷量而不能仅仅根据 Yk与 Xi的变换系数 γik

性质4:

性质5:

Xi与 Y1, Y2,…, Yp的全相关系数的平方和等于 1。

  • 方差贡献率vi

Xi与前 m个主成分 Y1, Y2,…, Ym的全相关系数平方和称为 Y1, Y2,…, Ym对原始变量 Xi的方差贡献率 vi,即:

这一定义说明了前 m个主成分提取了原始变量 Xi中 vi的信息,由此可以判断我们提取的主成分说明原始变量的能力。

  • 从相关矩阵出发求解主成分

考虑如下的数学变换:

式中,μi与σii分别表示变量Xi的期望与方差。
于是有 E(Zi)=0,  var(Zi)=1

原始变量 X1, X2,…, Xp的相关阵实际上就是对原始变量标准化后的协方差矩阵。因此,由相关矩阵求主成分的过程与主成分个数的确定准则实际上是与由协方差矩阵出发求主成分的过程与主成分个数的确定准则相一致的。

  • 由相关性求主成分时主成分的简单形式

(1)Y的协方差矩阵为对角阵ʌ。
(2)

(3)第 k个主成分的方差占总方差的比例,即第 k个主成分的方差贡献率为 αk= λk/ p,前 m个主成分的累积方差贡献率为:

(4)

相关问题讨论

关于由协方差矩阵或相关矩阵出发求解主成分

求解主成分的过程实际就是对矩阵结构进行分析的过程,也就是求解特征值的过程。从协方差阵出发和从相关阵出发所求得的主成分一般来说是有差别的,而且这种差别有时候还很大。
一般而言,对于度量单位不同的指标或取值范围彼此差异非常大的指标,不直接由其协方差矩阵出发进行主成分分析,而应该考虑将数据标准化。
但是,对原始数据进行标准化处理后倾向于各个指标的作用在主成分的构成中相等。对于取值范围相差不大或度量相同的指标进行标准化处理后,其主成分分析的结果仍与由协方差阵出发求得的结果有较大区别。
其原因是由于对数据进行标准化的过程实际上也就是抹杀原始变量离散程度差异的过程,标准化后的各变量方差相等均为 1,而实际上方差也是对数据信息的重要概括形式,也就是说,对原始数据进行标准化后抹杀了一部分重要信息,因此才使得标准化后各变量在对主成分构成中的作用趋于相等。
由此看来,对同度量或取值范围在同量级的数据,还是直接从协方差矩阵求解主成分为宜。

主成分分析不要求数据来自于正态总体

也就是说,与很多多元统计方法不同,主成分分析不要求数据来自于正态总体。实际上,主成分分析就是对矩阵结构的分析,其中主要用到的技术是矩阵运算的技术及矩阵对角化和矩阵的谱分解技术。我们知道,对多元随机变量而言,其协方差矩阵或相关矩阵均是非负定的,这样,就可以按照求解主成分的步骤求出其特征值、标准正交特征向量,进而求出主成分,达到缩减数据维数的目的。

主成分分析与重叠信息

首先应当认识到,主成分分析方法适用于变量之间存在较强相关性的数据,如果原始数据相关性较弱,运用主成分分析后不能起到很好的降维作用,即所得的各个主成分浓缩原始变量信息的能力差别不大。
一般认为,当原始数据大部分变量的相关系数都小于 0. 3时,运用主成分分析不会取得很好的效果。
很多研究工作者在运用主成分分析方法时,都或多或少存在着对主成分分析消除原始变量重叠信息的期望,这样,在实际工作之初就可以把与某一研究问题相关而可能得到的变量(指标)都纳入分析过程,再用少数几个主成分浓缩这些有用信息(假定已剔除了重叠信息),然后对主成分进行深入分析。
在对待重叠信息方面,生成的新的综合变量(主成分)是有效剔除了原始变量中的重叠信息,还是仅按原来的模式将原始信息中的绝大部分用几个不相关的新变量表示出来,这一点还有待讨论。

  • 多重共线性

在实际工作中,在选取初始变量进入分析时应该小心,对原始变量存在多重共线性的问题,在应用主成分分析方法时一定要慎重。应该考虑所选取的初始变量是否合适,是否真实地反映了事物的本来面目,如果是出于避免遗漏某些信息而特意选取了过多的存在重叠信息的变量,就要特别注意应用主成分分析所得到的结果。

如果所得到的样本协方差矩阵(或者相关阵)最小特征值接近于0,那么就意味着,中心化以后的原始变量之间存在着多重共线性,即原始变量存在着不可忽视的重叠信息。
因此,在进行主成分分析得出协方差阵或是相关阵,发现最小特征根接近于零时,应该注意对主成分的解释,或者考虑对最初纳入分析的指标进行筛选。由此可以看出,虽然主成分分析不能有效地剔除重叠信息,但它至少可以发现原始变量是否存在重叠信息,这对减少分析中的失误是有帮助的。

主成分分析步骤及逻辑框图

步骤

进行主成分分析的步骤,对此进行归纳如下:
(1)根据研究问题选取初始分析变量;
(2)根据初始变量特性判断由协方差阵求主成分还是由相关阵求主成分;
(3)求协方差阵或相关阵的特征根与相应标准特征向量;
(4)判断是否存在明显的多重共线性,若存在,则回到第一步;
(5)得到主成分的表达式并确定主成分个数,选取主成分;
(6)结合主成分对研究问题进行分析并深入研究。

逻辑框图

  • 7
    点赞
  • 71
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

GUI Research Group

谢谢支持!

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值