因子分析以及SPSS实现

最新推荐文章于 2023-09-21 14:42:53 发布

Logistic..

最新推荐文章于 2023-09-21 14:42:53 发布

阅读量1.4k

点赞数 2

文章标签：算法机器学习人工智能

本文链接：https://blog.csdn.net/c1172440795/article/details/126150285

版权

因子分析和主成分分析都是统计学中的降维方法。因子分析通过寻找隐藏的公共因子来解释变量间的关系，而主成分分析侧重于找到能够最大化解释数据方差的线性组合。因子分析允许因子旋转以提高解释性，而主成分分析的解是固定的。在体育赛事数据中，因子分析揭示了耐力和爆发力两个关键因素。通过因子得分，可以将原始变量转换为因子得分，便于理解和解释。

摘要由CSDN通过智能技术生成

因子分析

因子分析的相关简介

与主成分分析相似，因子分析也是一种降维的方法，因子分析通过研究多维样本矩阵，在样本的多个指标下，提取出适量的因子，使得每个指标可以表示成各个因子的线性组合。

假设我们有 $n$ 个样本， $p$ 个指标，则可以构成大小为 $n\times p$ 的样本矩阵
$x=\begin{bmatrix} x_{11}& x_{12}& \cdots & x_{1p}\\ x_{21}& x_{22}& \cdots & x_{2p}\\ \vdots & \vdots & \ddots & \vdots \\ x_{n1}& x_{n2}& \cdots &x_{np} \end{bmatrix}=（x_1,x_2,\cdots,x_p）$

主成分分析：通过 $（x_1,x_2,\cdots,x_p）$ 推出它们的主成分 $z_1,z_2,\cdots,z_m(m\le p)$ ，并且存在关系
$\begin{cases} z_1=l_{11}x_1+l_{12}x_2+\cdots+l_{1p}x_p\\ z_2=l_{21}x_1+l_{22}x_2+\cdots+l_{2p}x_p\\ \qquad\vdots\\ z_m=l_{m1}x_1+l_{m2}x_2+\cdots+l_{mp}x_p\\ \end{cases}$
$z_1,z_2,\cdots,z_m(m\le p)$ 是 $m$ 个主成分，各指标的线性组合构成了主成分。

因子分析：通过 $（x_1,x_2,\cdots,x_p）$ 推出它们的”因子“ $f_1,f_2,\cdots,f_m(m\le p)$ ，并且存在关系
$\begin{cases} x_1=u_1+a_{11}f_1+a_{12}f_2+\cdots+a_{1m}f_m+\varepsilon_1\\ x_2=u_2+a_{21}f_1+a_{22}f_2+\cdots+a_{2m}f_m+\varepsilon_2\\ \qquad\vdots\\ x_p=u_p+a_{p1}f_1+a_{p2}f_2+\cdots+a_{pm}f_m+\varepsilon_p\\ \end{cases}$
$f_1,f_2,\cdots,f_m(m\le p)$ 是公共因子， $\varepsilon_i$ 是特殊因子，各因子的线性组合构成了原始的指标。

x=u+Af+ $\varepsilon$ ,假设
$\begin{cases} E(f)=0\\ E(\varepsilon)=0\\ Var(f)=\mathrm{diag}(1,1,\cdots,1)\\ Var(\varepsilon)=\mathrm{diag}(\sigma_1^2,\sigma_2^2,\cdots,\sigma_p^2)\\ Cov(f,\varepsilon)=E(f\varepsilon^{\prime})=0 \end{cases}$
其中 $f=(f_1,f_2,\cdots,f_m)^{\prime}(m\le p)$ 是公因子向量

$\varepsilon=(\varepsilon_1,\varepsilon_2,\cdots,\varepsilon_p)^{\prime}$ 为特殊因子向量

$A_{p\times m}=(a_{ij})$ 称为因子载荷矩阵，假设 $\mathrm{rank}(A)=m$

主成分分析和因子分析的区别：

主成分分析是简单的数值计算，比较容易实现，解是唯一的，但是可能难以对结果进行解释

因子分析需要构造因子模型，伴随关键性的假定，因为我们可以进行因子旋转，所以我们可以得到多个可行解，这导致了因子分析的成功率远大于主成分分析的成功率。

因子载荷

因子分析模型 $x=u+Af+\varepsilon$ 中， $A_{p\times m}=(a_{ij})$ 称为因子载荷矩阵，假设 $\mathrm{rank}(A)=m$

(1) $a_{ij}$ 是原始变量 $x_i$ 与公因子 $f_i$ 之间的协方差， $a_{ij}=cov(x_i,f_j)$ ，如果 $x$ 经过了标准化，则 $a_{ij}=\rho(x_i,f_j)$

(2) $A$ 的行元素平方和 $h_i^2=\sum_{j=1}^ma_{ij}^2$ 是原始变量 $x_i$ 对公因子依赖的程度，可以证明 $Var(x_i)=h_i^2+\sigma_i^2(i=1,2,\cdots,p)$

$h_i^2$ 反映了公因子对于 $x_i$ 的影响，可以看成是公因子对于 $x_i$ 的方差贡献，称为共性方差， $\sigma_i^2$ 是特殊因子 $\varepsilon_i$ 对于 $x_i$ 的方差贡献，称为个性方差，若标准化，则 $h_i^2+\sigma_i^2=1$

(3) $A$ 的列元素平方和 $g_j^2=\sum_{i=1}^pa_{ij}^2$ 是公因子 $f_j$ 对于 $x_i$ 的贡献

可以证明： $\sum_{i=1}^pVar(x_i)=g_1^2+g_2^2+\cdots+g_m^2+\sum_{i=1}^p\sigma_i^2$

$g_j^2$ 的值越大，反映了 $f_j$ 对 $x$ 的影响越大， $g_j^2$ 是衡量公因子 $f_j$ 重要性的一个尺度，可视为公因子 $f_j$ 对 $x$ 的贡献。

因子旋转

令 $T$ 是一个任意的 $m\times m$ 的正交矩阵，令 $A^{*}=AT,f^{*}=T^{\prime}f$ ，则模型可以表示为:

$x=u+A^*f^*+\varepsilon$ ，这是因为上述假设仍然成立
$\begin{cases} E(f^*)=T^{\prime}E(f)=0\\ E(\varepsilon)=0\\ Var(f^*)=T^{\prime}Var(f)T=T^{\prime}IT=I=\mathrm{diag}(1,1,\cdots,1)\\ Var(\varepsilon)=\mathrm{diag}(\sigma_1^2,\sigma_2^2,\cdots,\sigma_p^2)\\ Cov(f^*,\varepsilon)=E(f^*\varepsilon^{\prime})=T^{\prime}E(f\varepsilon^{\prime})=0 \end{cases}$
推导比较复杂，不需要大家掌握。

因子旋转应当使得新的公共因子的载荷系数的绝对值尽可能接近0或1，这是为了使结果更易于解释。

下面介绍几种SPSS中的因子旋转的方法

最大方差法

正交旋转，使得对每个因子有高负载的变量数目达到最小，该方法简化了因子的解释。这是最常用的因子旋转方法。

最大四次方值法

一种旋转方法，它可以使得解释每个变量所需的因子最少，简化了观察变量的解释。

最大平衡值法

一种旋转方法，是简化因子的最大方差法与简化变量的最大四次方值法的组合，可以使得高度依赖因子的变量个数以及解释变量所需的因子的个数最少。

最优斜交旋转

斜交旋转，可使因子相关联，该旋转比直接最小斜交旋转更快的计算出来，适用于大型数据集。

因子得分

我们可以反过来将公共因子表示为原变量的线性组合，即可得出因子得分
$\begin{cases} x_1=u_1+a_{11}f_1+a_{12}f_2+\cdots+a_{1m}f_m+\varepsilon_1\\ x_2=u_2+a_{21}f_1+a_{22}f_2+\cdots+a_{2m}f_m+\varepsilon_2\\ \qquad\vdots\\ x_p=u_p+a_{p1}f_1+a_{p2}f_2+\cdots+a_{pm}f_m+\varepsilon_p\\ \end{cases}\to \begin{cases} f_1=b_{11}x_1+b_{12}x_2+\cdots+b_{1p}x_p\\ f_2=b_{21}x_1+b_{22}x_2+\cdots+b_{2p}x_p\\ \qquad\vdots\\ f_m=b_{m1}x_1+b_{m2}x_2+\cdots+b_{mp}x_p\\ \end{cases}$
第 $i$ 个因子的得分可以写成 $f_i=b_{i1}x_1+b_{i2}x_2+\cdots+b_{ip}x_p\quad(i=1,2,\cdots,m)$

可以通过回归、Bartlett、Anderson-Rubin方法计算因子得分。第三种方法比较常用。

Anderson-Rubin方法是一种估计因子得分的方法，对Bartlett方法进行了修正，从而确保被估计的因子的正交性，生成的分数平均值为0，标准差为1，且不相关。

判断是否适合因子分析的检验——KMO检验和巴特利特球形检验

KMO检验：

KMO统计量是取值在0和1之间， KMO值越接近于1，意味着变量间的相关性越强，原有变量越适合作因子分析；当所有变量间的简单相关系数平方和接近0时， KMO值越接近于0,意味着变量间的相关性越弱，原有变量越不适合作因子分析

直接上结论，KMO>0.9,非常适合； 0.8<KMO<0.9,适合；0.7<KMO<0.8, 一般； 0.6<KMO<0.7,不太适合； KMO<0.5,不适合

巴特利特球形检验：

基于假设检验：原假设：相关系数矩阵是单位阵

直接上结论，如果巴特利特检验的统计量对应的p值小于用户心中的显著性水平（一般为0.05），那么拒绝原假设，认为相关系数不可能是单位阵，适合因子分析

SPSS可以直接进行上述检验。

因子分析的应用

给定下列各个国家的数据，试找出各个指标的因子

序号	国家	一百米	两百米	四百米	八百米	一千五百米	五千米	一万米	马拉松
1	阿根廷	10.39	20.81	46.84	1.81	3.7	14.04	29.36	137.72
2	澳大利亚	10.31	20.06	44.84	1.74	3.57	13.28	27.66	128.3
3	奥地利	10.44	20.81	46.82	1.79	3.6	13.26	27.72	135.9
4	比利时	10.34	20.68	45.04	1.73	3.6	13.22	27.45	129.95
5	百慕大	10.28	20.58	45.91	1.8	3.75	14.68	30.55	146.62
6	巴西	10.22	20.43	45.21	1.73	3.66	13.62	28.62	133.13
7	缅甸	10.64	21.52	48.3	1.8	3.85	14.45	30.28	139.95
8	加拿大	10.17	20.22	45.68	1.76	3.63	13.55	28.09	130.15
9	智利	10.34	20.8	46.2	1.79	3.71	13.61	29.3	134.03
10	中国	10.51	21.04	47.3	1.81	3.73	13.9	29.13	133.53
11	哥伦比亚	10.43	21.05	46.1	1.82	3.74	13.49	27.88	131.35
12	库克群岛	12.18	23.2	52.94	2.02	4.24	16.7	35.38	164.7
13	哥斯达黎加	10.94	21.9	48.66	1.87	3.84	14.03	28.81	136.58
14	捷克斯洛伐克	10.35	20.65	45.64	1.76	3.58	13.42	28.19	134.32
15	丹麦	10.56	20.52	45.89	1.78	3.61	13.5	28.11	130.78
16	多米尼加共和国	10.14	20.65	46.8	1.82	3.82	14.91	31.45	154.12
17	芬兰	10.43	20.69	45.49	1.74	3.61	13.27	27.52	130.87
18	法国	10.11	20.38	45.28	1.73	3.57	13.34	27.97	132.3
19	德意志民主共和	10.12	20.33	44.87	1.73	3.56	13.17	27.42	129.92
20	德意志联邦共和	10.16	20.37	44.5	1.73	3.53	13.21	27.61	132.23
21	大不列颠及北爱	10.11	20.21	44.93	1.7	3.51	13.01	27.51	129.13
22	希腊	10.22	20.71	46.56	1.78	3.64	14.59	28.45	134.6
23	危地马拉	10.98	21.82	48.4	1.89	3.8	14.16	30.11	139.33
24	匈牙利	10.26	20.62	46.02	1.77	3.62	13.49	28.44	132.58
25	印度	10.6	21.42	45.73	1.76	3.73	13.77	28.81	131.98
26	印度尼西亚	10.59	21.49	47.8	1.84	3.92	14.73	30.79	148.83
27	以色列	10.61	20.96	46.3	1.79	3.56	13.32	27.81	132.35
28	爱尔兰	10.71	21	47.8	1.77	3.72	13.66	28.93	137.55
29	意大利	10.01	19.72	45.26	1.73	3.6	13.23	27.52	131.08
30	日本	10.34	20.81	45.86	1.79	3.64	13.41	27.72	128.63
31	肯尼亚	10.46	20.66	44.92	1.73	3.55	13.1	27.38	129.75
32	韩国	10.34	20.89	46.9	1.79	3.77	13.96	29.23	136.25
33	朝鲜人民民主共	10.91	21.94	47.3	1.85	3.77	14.13	29.67	130.87
34	卢森堡	10.35	20.77	47.4	1.82	3.67	13.64	29.08	141.27
35	马来西亚	10.4	20.92	46.3	1.82	3.8	14.64	31.01	154.1
36	毛里求斯	11.19	22.45	47.7	1.88	3.83	15.06	31.77	152.23
37	墨西哥	10.42	21.3	46.1	1.8	3.65	13.46	27.95	129.2
38	荷兰	10.52	20.95	45.1	1.74	3.62	13.36	27.61	129.02
39	新西兰	10.51	20.88	46.1	1.74	3.54	13.21	27.7	128.98
40	挪威	10.55	21.16	46.71	1.76	3.62	13.34	27.69	131.48
41	巴布亚新几内亚	10.96	21.78	47.9	1.9	4.01	14.72	31.36	148.22
42	菲律宾	10.78	21.64	46.24	1.81	3.83	14.74	30.64	145.27
43	波兰	10.16	20.24	45.36	1.76	3.6	13.29	27.89	131.58
44	葡萄牙	10.53	21.17	46.7	1.79	3.62	13.13	27.38	128.65
45	罗马尼亚	10.41	20.98	45.87	1.76	3.64	13.25	27.67	132.5
46	新加坡	10.38	21.28	47.4	1.88	3.89	15.11	31.32	157.77
47	西班牙	10.42	20.77	45.98	1.76	3.55	13.31	27.73	131.57
48	瑞士	10.25	20.61	45.63	1.77	3.61	13.29	27.94	130.63
49	瑞典	10.37	20.46	45.78	1.78	3.55	13.22	27.91	131.2
50	中国台北	10.59	21.29	46.8	1.79	3.77	14.07	30.07	139.27
51	泰国	10.39	21.09	47.91	1.83	3.84	15.23	32.56	149.9
52	土耳其	10.71	21.43	47.6	1.79	3.67	13.56	28.58	131.5
53	美国	9.93	19.75	43.86	1.73	3.53	13.2	27.43	128.22
54	苏联	10.07	20	44.6	1.75	3.59	13.2	27.53	130.55
55	西萨摩亚	10.82	21.86	49	2.02	4.24	16.28	34.71	161.83

我们可以通过SPSS进行因子分析

因子分析的SPSS实现

1.我们在SPSS界面点击分析——降维——因子

在这里插入图片描述

2.SPSS因子分析通常要做两次，要提取因子，第一次是基于特征值得到碎石图，进而得出选取多少个因子，可以解释大多数变量。第二次再选择固定数目的因子。
在这里插入图片描述
3.在描述的按钮内，选中初始解，系数，显著性水平，KMO检验和巴特利特球形检验。

4.选择因子旋转的方法，由于因子旋转最常用的方法是最大方差法，所以我们选中最大方差法，我们需要显示旋转后的解和载荷图，故勾选。
在这里插入图片描述

5.我们选择计算因子得分的方法——安德森鲁宾法，因为这个方法是计算得分比较好的方法。

在这里插入图片描述

6.点击确定

在这里插入图片描述

7.我们看到了KMO和巴特利特球形检验的结果，可以发现KMO>0.9且巴特利特统计量的显著性小于0.001，所以适合做因子分析

在这里插入图片描述

8.我们看到了碎石图，可以明显看出，前两个特征值可以解释大多数的信息，所以我们回到2.，把提取的法则定为因子的固定数目2
在这里插入图片描述

9.点击确定，再次运行因子分析

在这里插入图片描述

这是因子旋转之前的成分矩阵，我们发现因子1在各个变量上的载荷都近似相同，难以解释。

在这里插入图片描述

这是旋转后的成分矩阵，我们发现，随着跑步距离增加，因子1在增加，因子2在减少，这说明因子1可以理解为耐力，因子2可以理解为爆发力。

我们的模型可以这样得到

设一百米，两百米，四百米，八百米，一千五百米，五千米，一万米，马拉松分别为 $x_1,x_2,\cdots,x_8$ ，因子1，因子2分别为 $f_1,f_2$ ，则
$\begin{cases} x_1=0.274f_1+0.935f_2\\ x_2=0.376f_1+0.893f_2\\ x_3=0.543f_1+0.773f_2\\ x_4=0.712f_1+0.627f_2\\ x_5=0.813f_1+0.525f_2\\ x_6=0.902f_2+0.389f_2\\ x_7=0.903f_1+0.397f_2\\ x_8=0.936f_1+0.261f_2 \end{cases}$
我们因子旋转所使用的正交矩阵是
$T=\begin{bmatrix} 0.759& 0.651 \\ -0.651& 0.759 \end{bmatrix}$
这是我们的因子旋转后的空间组件图

在这里插入图片描述

可以发现，随着距离的增加，组件1增加，组件2减少，所以组件1是耐力，组建2是爆发力，这个假设是合理的。

因子得分

我们看到了成分得分系数矩阵，这就是因子得分。

在这里插入图片描述

$\begin{cases} f_1=-0.300x_1-0.222x_2-0.068x_3+0.100x_4+0.207x_5+0.324x_6+0.321x_7+0.406x_8\\ f_2=+0.540x_1+0.459x_2+0.291x_3+0.103x_4-0.019x_5-0.161x_6-0.157x_7-0.269x_8\\ \end{cases}$

总方差解释表

上表为总方差解释表，给出了每个公共因子所解释的方差及累计和。
从“初始特征值”一栏中可以看出，前2个公共因子解释的累计方差达93.747%，而后面的公共因子的特征值较小，对解释原有变量的贡献越来越小，因此提取两个公共因子是合适的。
“提取载荷平方和” 一栏是在未旋转时被提取的2个公共因子的方差贡献信息，其与“初始特征值”栏的前两行取值一样。
“旋转载荷平方和”是旋转后得到的新公共因子的方差贡献信息，和未旋转的贡献信息相比，每个公共因子的方差贡献率有变化，但最终的累计方差贡献率不变。