主成分分析原理

一、主成分操作步骤

1、为消除量纲的影响,先对数据进行标准化处理;

2、计算相关系数:一般认为各变量之间的相关系数大于0.3较好;

3、KMO检验和Barlett(巴特利)检验;

(1)KMO取样适切性量数>=0.6较适宜(这里也是判断能不能用主成分分析的结果的重要指标。)
 并非所有的数据都适用于主成分分析的。主成分分析本身并不是目的, 实际应用中主成分分析往往是一种手段。目的是通过主成分分析简化数据结构, 在此基础上进行进一步的分析。
 因此, 使用主成分分析的前提条件是原始数据各个变量之间应有较强的线性相关关系。如果原始变量之间的线性相关程度很小, 它们之间不存在简化的数据结构, 这时进行主成分分析实际是没有意义的。所以, 应用主成分分析时, 首先要对其适用性进行统计检验。
 检验方法有巴特莱特球性检验,KMO检验等,本文主要介绍KMO检验。
计算得到的KMO值越大,表示越适合进行主成分分析,其度量标准表如下:

KMO值分析的适用性
0.90-1.00–非常好
0.80-0.89
0.70-0.79一般
0.60-0.69
0.50-0.59很差
0.00-0.49不能进行分析

(KMO参考文献[3])

(2)sig也即显著性一般小于0.05较为适宜;

4、计算特征值和特征向量;提取特征值大于1且方法贡献率达到85%左右的主成分。(这里这里)

5、识别主成分的贡献率和累计贡献率;

6、计算各个主成分的得分:
F i = w i 1 X 1 + w i 2 X 2 + w i 3 X 3 + . . . . + w i n X n F_{i}=w_{i1}X_1+w_{i2}X_2+w_{i3}X_3+....+w_{in}X_n Fi=wi1X1+wi2X2+wi3X3+....+winXn
其中
w i j = q i λ i w_{ij}=\frac{q_i}{\sqrt{\lambda_i}} wij=λi qi
qi代表主成分中每个变量对应的系数(这里的系数是在成分矩阵中得到的),上式中下面的值代表第i个主成分对应的特征值的开根值(这里的特征值是初始特征值);

7、计算综合得分:
F = a 1 F 1 + a 2 F 2 + a 3 F 3 + . . . . + a n F n F=a_1F_1+a_2F_2+a_3F_3+....+a_nF_n F=a1F1+a2F2+a3F3+....+anFn
ai表示第i个主成分的方差百分比(这个可以指标能代表总体水平,这里就相当于简化的指标)。最后的综合得分的系数α不是乘前面的百分比而是加权平均后的系数,即α1=64.263%/(64.263%+18.298%),α2=18.298%/(64.263%+18.298%)

二、spss里面的设置

  spss中进行主成分分析时,不用进行数据标准话,因为再进行主成分分析时候,它会自动进行标准化。

image-20220408162846494

image-20220408162915642

image-20220408162934261

image-20220408162954692

image-20220408163013771

image-20220408163028508

三、一些概念的解释

各统计量的意义

(1)特征值。它可以被看成是衡量主成分解释力度的指标,代表引人该主成分后可以解释平均多少个原始变量的信息。如果特征值小于1,则说明该主成分的解释力度还不如直接引人一个原始变量的平均解释力度大。因此一般可以用特征值大于1作为纳入标准。
(2)主成分Z的方差贡献率。表明主成分Z,的方差在总样本方差中的比重。这个值越大,表明主成分Z,携带的X1到Xn的原始信息量越多。
(3)累积贡献率。前k个主成分的累积贡献率指按照方差贡献率从大到小排列,前k个主成分累积提取了多少的原始信息。一般来说,如果该指标达到85%,则表明这些主成分包含了全部测量指标所具有的主要信息,这样既减少了变量的个数,又便于对实际问题进行分析和研究。

主成分载荷

主成分载荷表示各个主成分与原始变量的相关系数。大于0.5都是强相关的,你的9个变量,跟4个特征向量中的一个或者两个是强相关的,所以可以用4个变量代替9个变量,但是这4个变量不是从这9个中选取的,具体内容还请自己查阅相关资料。

碎石图

崖低碎石图(scree plot)即贡献率图,是希望图形一开始很陡峭,如悬崖一般,而剩下的数值都很小,如崖底的碎石一样。

成分矩阵

image-20220408171549514

总方差解释

image-20220408171532010
主成分分析的应用条件和局限

主成分分析只要用于降维度,同时生成的不同的主成分可以有不同的解释,不同的解释可以参考不同的文章。PCA也存在一些限制,例如它可以很好的解除线性相关,但是对于高阶相关性就没有办法了,对于存在高阶相关性的数据,可以考虑Kernel PCA,通过Kernel函数将非线性相关转为线性相关。

参考文献
[1]一文看懂主成分分析

[2]张文霖.主成分分析在SPSS中的操作应用[J].市场研究,2005(12):31-34.
[3]主成分分析——KMO检验(介绍及Matlab代码)

  • 4
    点赞
  • 27
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Q一件事

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值