基于SPSS的主成分分析（PCA）

环微分析

已于 2022-04-12 20:13:21 修改

阅读量1.3w

点赞数 41

分类专栏：环境微生物生物信息分析分享板文章标签：生物信息学

于 2022-04-12 18:08:41 首次发布

原文链接：https://mp.weixin.qq.com/s?__biz=Mzk0NTIwOTQ0Mg==&mid=2247485903&idx=1&sn=7c98d824aa0c8ad595987e17608ca8a5&chksm=c319a0c2f46e29d41a89a57e26d390e9dc3530d6857c382b94056ff7f0c7647ccca93607e6fd&token=1957810894&lang=zh_CN#rd

版权

环境微生物生物信息分析分享板专栏收录该内容

34 篇文章

订阅专栏

主成分分析（Principal Component Analysis，PCA）是一种统计方法。PCA以降维方式，在损失很少信息的前提下通过正交变换将一组可能存在相关性的变量（多个指标）转换为一组线性不相关的变量（少数几个综合指标）。转换生成的综合指标称之为主成分，其中每个主成分都是原始变量的线性组合，且各个主成分之间互不相关，这就使得主成分比原始变量具有某些更优越的代表性。在环境学领域，PCA分析能够从总体上反映各组样本之间的总体差异和组内样本之间的变异度大小。通常我们可以使用SPSS、SIMCA-P、PAST软件来实现数据的PCA分析，而SPSS菜单式的PCA分析重点在于通过对样本的多指标变量进行降维计算各样本的主成分综合得分，据此反映某种综合指标的水平，定量地对其排序评价。

一、PCA基本原理

如果用X1,X2,…,Xp表示P门课程，C1,C2,…,Cp表示各门课程的权重，那么加权之和就是学生的综合能力S=C1X1+C2X2+…+CpXp，我们希望分配适当的权重能更好地区分学生的成绩。每个学生对应一个这样的综合成绩，记为S1,S2,…,Sn，n为学生人数。因此，我们需要找到合适的C1,C2,…,Cp，使得S1,S2,…,Sn能尽可能地分散。当然，必须加上某种限制，否则权重值可选择无穷大而没有意义，通常规定为

此外，不仅仅只有一种权衡学生综合能力的标准，即一个主成分不足以代表原来的P个变量，因此需要寻找第二个、第三乃至第四主成分，第二个主成分不应该再包含第一个主成分的信息，数学统计上的描述就是让这两个主成分的协方差为零，几何上就是这两个主成分的方向正交。具体确定两个主成分的方法如下：

设Zi表示第i个主成分，i=1,2,…,p，可设

其中对每一个i，均有

二、分析步骤

①原始数据标准化（消除量纲或数量级的影响，SPSS自动计算）

假设进行主成分分析的指标变量有m个，X1,X2,…,Xm，共有n个评价对象。第i个评价对象的第j个指标的取值为Xij，将各指标值Xij转换成标准化指标

即

，

分别为第j个指标的样本均值和样本标准差；对应的，称

为标准化指标变量。

②建立变量之间的相关系数矩阵R

式中rii=1, rij=rji, rij是第i个指标与第j个指标的相关系数。

③计算相关系数矩阵R的特征值和特征向量

计算相关系数矩阵R的特征值λ1≥λ2≥…≥λm≥0,及对应的特征向量u1，u2,…,um，其中uj=(u1j,u2j,…,unj)T，由特征向量组成m个新的指标变量：

式中y1是第1主成分，y2是第二主成分，…，ym是第m主成分。

④写出主成分并计算综合得分

Ⅰ 计算特征值λj（j=1,2,…,m）的信息贡献率和累积贡献率。

信息贡献率：

累积贡献率：

当αp接近于1（αp=0.85，0.90，0.95）时，则选择前p个指标变量y1,y2,…,yp作为p个主成分，代替原来m个指标变量，从而可对p个主成分进行综合分析；

Ⅱ 计算综合得分

其中，bj为第j个主成分的信息贡献率。

三、实例分析

（1）目的

对6种不同施肥处理的农田土样及背景土（Background soil，BS）的土壤理化指标进行主成分分析，并计算7块样地土壤主要理化指标的主成分综合得分并进行综合排序，用于评价土壤质量。

（2）数据

不同处理样地的主要理化指标（m）有如下8个，土壤pH，容重（g/cm3），全盐量（g/kg），有机质（g/kg），总氮（mg/kg），有效氮（mg/kg），总磷（mg/kg），有效磷（mg/kg）。关注“环微分析”公众号，后台回复“PCA”即可获取示例数据。

（3）实操

①导入数据

使用Excel将样地环境的理化数据整理为下图形式，即第一列为各处理采样点，第一行为样品的理化指标；

之后将除第一行的数据粘贴到SPPS数据视图中，然后将第一行的变量标签粘贴到变量视图中，整理后数据如下图：

②选项操作

选择分析>降维>因子分析，打开“因子分析”对话框;

在原变量框中选中需要进行分析的变量，点击右边的箭头符号，将全部8个指标变量调入变量栏中;

提示：这里后续分析从相关矩阵出发求解，SPSS会对原始变量自动进行标准化，后续分析输出结果皆基于标准化后的变量进行，因此此处不必单独进行标准化操作。

Ⅰ 设置描述选项

单击“描述”选项，在“描述”对话框中“统计”栏保持默认“初始解”，输出结果中会显示主成分载荷的公因子方差（这一栏数据分析时用到）；在“相关性矩阵”栏中勾选“系数”，则会给出原始变量的相关系数矩阵，继续勾选“KMO和巴特利特球形度检验”，单击继续按钮完成设置；

Ⅱ 设置提取选项框

“提取”对话框中，因子提取“方法”主要有7种，在“方法”栏中可以看到系统默认的提取方法是主成分，对此栏不作变动，即用“主成分”分析方法。“分析”栏中勾选“相关性矩阵”，此分析方式适用于各变量指标量纲不同或取值数量级相差较大（m，kg，t，%等），不可直接由其协方差矩阵进行主成分分析，应选择可将原始变量自动进行标准化的“相关矩阵”进行后续分析。而“协方差矩阵”一般只适用于被分析的各变量指标量纲相同且取值范围在同一数量级内，可直接基于原始变量从协方差矩阵出发求解。“提取”栏中，主成分分析选择“基于特征根”的主成分提取方法，由其决定主成分提取数目，系统默认特征值大于“1”，主成分得分的方差就是对应的特征值。一般默认特征值大于1，则所有方差大于1的主成分将被保留，其余舍弃。

主成分计算是利用迭代方法，系统默认的迭代次数是25次。但是，当数据量较大时，25次迭代是不够的，需要改为50次、100次乃至更多。对于本例而言，变量较少，25次迭代足够，故无需改动。设置完成以后，单击继续按钮完成设置；

Ⅲ 其他选项设置

对于主成分分析，“旋转”、“得分”项都保持不变；“选项”勾选“按大小排序”，则输出结果中的主成分将按照特征值从大到小的顺序依次排列，全部设置完成后，点击确定即可输出主成分分析结果；

③分析结果的解读

Ⅰ 相关性矩阵

相关性矩阵是变量两两之间相关系数大小的方阵，一般而言，相关系数较高的变量，大多会归入同一个主成分。同时，相关系数值也决定了PCA分析的适用性；

提示：PCA分析适用于变量之间存在较强相关性的数据，若原始数据相关性较弱，一般当原始数据大部分变量的相关系数都小于0.3时，PCA分析后不能得到很好的降维作用，所得各个主成分浓缩原始变量信息的能力相差不大。

Ⅱ KMO和Bartlett球形检验

KMO和巴特利特球形度检验结果表格中，若KMO值>0.6，说明数据适合做因子分析；巴特利特球形度检验的显著性P值<0.05，亦说明数据适合做因子分析。此外，若变量个数大于样本个数，输出结果中不会出现KMO检验表。（此示例未输出检验表，这里不做展示）因此我们可以通过相关性矩阵判断大部分指标之间具有一定相关性，可提取主成分分析；

Ⅲ 公因子方差

下表展示了变量的共同度，“提取”下面各变量共同度值皆>0.5，说明提取的主成分对于原始变量的解释程度比较高。本表在主成分分析中用处不大，此处列出来仅供参考。

④总方差解释

我们深入了解到PCA分析在数理统计学知识中通过推导选取k个特征向量组成新基进行投影降维，新基维数少于原来变量维数。选择新基的原则便是保留有更多原始信息，使原始变量向新基投影尽可能分散，投影后可以保留更多的信息，此时原始变量特征在前k个特征向量上作用程度最大，这种作用程度用特征值表示，而方差贡献率表示投影后信息的保留程度的变量，即：各特征值ki/k个特征值总和。

“总方差解释表”中在数值上初始特征根=主成分得分方差=相关系数矩阵的特征根，因此可以直接根据特征根计算每一个主成分的方差百分比（%）。由于全部特征根的总和等于变量数目m，即有

，故第一个特征根的方差百分比为λ1/m=3.829/8=47.866%，λ2/m=1.687/8=21.093%，其余以此类推。各方差贡献率相加之和等于累积方差贡献率，便可以算出方差百分比累计值。

在该表中，主成分得分的方差按顺序排列，在数值上等于相关系数矩阵的各个特征值λ。因为在前述“提取”选项中默认设置仅提取λ>1的主成分，这里仅提取λ>1的主成分。由下表可知，提取了三个主成分，方差累积贡献率为86.539%（一般要求>85%），三个特征值分别为3.829、1.687和1.406。上述说明这三个主成分基本包含了全部测量指标所具有的信息，所以决定用三个新变量代替原始8个变量；