因子分析原理及结果解析

最新推荐文章于 2023-12-29 01:22:43 发布

耳东鹏

最新推荐文章于 2023-12-29 01:22:43 发布

阅读量4.1w

点赞数 40

分类专栏：因子分析数据挖掘算法文章标签：数据挖掘

本文链接：https://blog.csdn.net/MR_Trustin/article/details/124920313

版权

数据挖掘算法同时被 2 个专栏收录

5 篇文章

订阅专栏

因子分析

1 篇文章

订阅专栏

因子分析原理及结果解析

因子分析的起源：

1904年英国的一个心理学家发现学生的英语、法语和古典语成绩非常有相关性，他认为这三门课程背后有一个共同的因素驱动，最后将这个因素定义为“语言能力”。基于这个想法，发现很多相关性很高的因素背后有共同的因子驱动，从而定义了因子分析。

主要思想：

因子分析主要基于降维的思想，通过探索变量之间的相关系数矩阵，根据变量的相关性大小对变量进行分组，使同组内变量间的相关性较高，不同组变量的相关性较低，而代表每组数据基本结构的新变量称为公共因子。也就是说，因子分析就是在尽可能不损失或
者少损失原始数据信息的情况下，将错综复杂的众多变量聚合成少数几个独立的公共因子，这几个公共因子可以反映原来众多变量的主要信息，在减少变量个数的同时，又反映了变量之间的内在联系。比如衡量某地区综合发展情况，我们可以通过因子分析，将六个指标（变量）聚合为两三个公共因子。

分类：

根据分析目的的不同，我们可以将因子分析分为探索性因子分析和验证性因子分析
探索性因子分析：将众多变量聚合为少数几个的公共因子，揭示观测变量之间的内在数据结构。
验证性因子分析：验证已分类的维度是否符合数据情况，是否有效。

用SPSS做因子分析的步骤：

1）充分性验证

充分性验证

2）选择因子变量提取方法

常用主成分分析法来提取公共因子变量，特征值>1、累计方差贡献率>80%时即可提取公共因子变量。但当指标比较多时，提取的因子可能不是很明显，因此这时候就需要旋转因子。

3）旋转因子

旋转因子是为了能对各原始变量更好地分类，常用最大方差法来旋转，旋转次数可以自己规定。

4）对因子做解释和命名

解释和命名是对潜在因子理解的过程，这一步非常关键，需要非常理解业务才行，这也是我们做因子分析的主要原因。

5）计算公共因子得分

对每一样本数据，得到他们在不同因子上的具体数据值，这些数值就是因子得分。
因子得分有助于之后的分析中将公共因子当作分析变量，而不再分析降维前的原始变量。

示范

spss操作步骤：

1）：操作路径：工具栏【分析-降维-因子分析】将要进行分析的六个变量“人均GDP、固定资产投资、社会消费品零售总额、农村人均纯收入、科研机构数量、卫生机构数量”添加【变量】窗口中。
2）：单击【描述】，打开【因子分析：描述】对话框，选择【原始分析结果】和【KMO和巴特利特的
球形度检验】，用于生成评估变量是否适合做因子分析的统计指标。
3）：单击【抽取】，打开【因子分析：抽取】对话框，在【方法】下拉框中选择【主成分】，这是最常用的用于提取因子的方法；选择【碎石图】，用于辅助判断因子个数，其他保持系统默认状态。
4）：单击【旋转】，弹出【因子分析：旋转】对话框，在旋转【最大方差法】，这是最常用的因子旋转的方法，该方法可以使每个变量尽可能在一个因子上有较高的载荷，而在其他的因子上载荷较小，
从而因子更好地解释因子所包含的意义。其他的项目保持系统默认。
5）：单击【得分】，打开【因子分析：因子得分】对话框，选择【保存为变量】和【回归】，用于保存计算得到的因子得分

结果解析

在这里插入图片描述
“KMO和巴特利特检验”主要用于评估数据是否适合做因子分析。我们主要看KM0统计量和巴特
利特的概率P值。KMO统计量为0.635，大于0.6，说明本数据集还算适合做因子分析；Bartiett球
度检验的概率值为0，小于显著性水平（0.01），即说明所分析的变量之间存在相关关系，有相关性则适合做因子分析。
在这里插入图片描述
从结果来看，表中6个变量的共性方差均大于0.7，表示所有原始变量被公共因子解释的程度均超过
了0.7，即提取的公共因子能够反映各原始变量70%以上的信息。说明提取的公共因子能够很好的反映原始变量的信息。
在这里插入图片描述
表中内容包含6个变量初始特征值及方差贡献率、提取两个公共因子后的特征值及方差贡献率、旋转后的两个公共因子后的特征值及方差贡献率。第一成分的初始特征值为3.327，远大于1；第二成分的初始特征值为1.786，大于1；从第三成分开始，其初始特征值均小于1，故因此选择两个公共因子便可以得到85.2%的累计贡献率，即表示两个公共因子可以解释约85%的总方差，结果理想。
在这里插入图片描述
碎石图中明显发现第一个公因子和第二个公因子变化最大，其累计贡献率达到85%，这就说明从6个变量提取的两个公因子可以表达足够的原始信息。

成分矩阵：上表表示用主成分的提取方法得到旋转前的因子负荷矩阵，根据0.5的原则，因子1在前5个变量都有很大的负荷。因子2在后两个变量上有较大的负荷。“科研机构数量”这个变量在两个因子中的载荷比较接近，难以对因子进行明确定义，即难以判断该变量应该由哪个因子进行解释。因此需要进行因子旋转。
旋转成分矩阵：经过四次方最大旋转后，得到旋转后的因子负荷矩阵。同样根据0.5原则可知，因子1可以支配农村人均纯收入、人均GDP、社会消费品零售总额三个变量，反映的是社会经济情况。因子2可以支配卫生机构数量、科研机构数量、固定资产投资三个变量，反映的是产业结构因子。这个与上面没有旋转的第二公共因子包含的内容略有差别，这说明该旋转对因子负荷起到了明显的作用。故可以得到旋转后的因子分析模型为：
农村人均纯收入 = 0.961 * F1 + 0.196 * F2
人均GDP= 0.96 * F1 + 0.091 * F2
社会消费品零售总额 = 0.885 * F1 + 0.109 * F2
卫生机构数量= -0.098 * F1 + 0.922 * F2
科研机构数量= 0.207 * F1 + 0.897 * F2
固定资产投资= 0.34 * F1 + 0.778 * F2
在这里插入图片描述
采用回归法计算因子得分系数如上表所示，故可以得到因子得分函数为：
F1 = 人均GDP0.363 + 固定资产投资0.037+社会消费品零售总额 * 0.332 + 农村人均纯收入 * 0.35