数据背后的结构——因子分析

零度°

已于 2024-07-27 21:10:06 修改

阅读量1.8k

点赞数 47

分类专栏：统计学方法文章标签：因子分析

于 2024-07-27 21:09:02 首次发布

本文链接：https://blog.csdn.net/qq_57143062/article/details/140740358

版权

统计学方法专栏收录该内容

21 篇文章

订阅专栏

文章目录

基本概念
算法步骤
应用
实例
总结

因子分析也是一种降维统计算法，它通过识别观测变量之间的潜在关系来简化复杂数据集的结构。这种降维技术不仅揭示了数据中的潜在结构，而且通过较少的因子来解释多个变量之间的相关性。本文将深入探讨因子分析的基本概念、算法步骤以及其在不同领域的应用，并讨论其局限性。

基本概念

在因子分析中，我们关注以下几个关键概念：

观测变量：这些是直接测量的数据点，如问卷调查中的得分。
潜在变量（因子）：这些是不可直接观测的抽象概念，它们通过影响观测变量来体现。
因子载荷：这些是潜在变量与观测变量之间的相关系数，用 $\lambda_{ij}$ 表示，其中 $i$ 是因子的索引， $j$ 是观测变量的索引。
共同度：表示观测变量方差中由所有因子共同解释的部分，用 $R_{jj}$ 表示。
特定因子：每个观测变量独有的方差部分，用 $e_j$ 表示。

算法步骤

因子分析的算法步骤可以详细描述如下：

1. 数据标准化

由于不同量纲的变量可能影响因子分析的结果，首先对数据进行标准化处理，由于在上一篇主成分分析中用了极值标准化，这里介绍一下借助方差进行的标准化，公式为：
$z_j = \frac{x_j - \mu_j}{\sigma_j}$
其中 $z_j$ 是标准化后的变量， $x_j$ 是原始数据， $\mu_j$ 是均值， $\sigma_j$ 是标准差。

2. 相关性矩阵构建

计算标准化后观测变量之间的相关性矩阵 $\mathbf{R}$ 。

3. 提取因子

使用主成分分析（PCA）或其他方法，如极大似然法或最小二乘法，来提取初始因子解。PCA的目的是找到特征值最大的特征向量，公式为：
$\mathbf{R} = \mathbf{F}\mathbf{\Lambda}\mathbf{F}^T + \mathbf{E}$
其中 $\mathbf{F}$ 是因子载荷矩阵， $\mathbf{\Lambda}$ 是对角矩阵包含特征值， $\mathbf{E}$ 是特定因子的方差矩阵。这部分的具体计算在上一篇文章已经介绍的很详细了，有疑问的朋友可以回顾一下。

4. 旋转因子

因子旋转是一种在因子空间中重新定位因子的方法，目的是使因子分析的结果更容易解释。在未旋转的因子分析中，得到的因子可能难以直观地与实际概念相对应。旋转提供了一种方式，通过改变因子的方向来增强因子的解释性。下面是几种常见的旋转方法：

正交旋转：保持因子间的独立性。常见的正交旋转方法包括方差最大化法（Varimax）和幂法（Quartimax）。
方差最大化法（Varimax）：试图最大化因子载荷的方差，使得每个因子只与少数几个变量有高载荷，而与其他变量载荷较小。
幂法：试图将载荷分散到更多的因子上。
斜交旋转：允许因子之间存在一定相关性。斜交旋转方法包括Promax等。
Promax：在正交旋转的基础上，允许因子之间有一定的相关性，但相关性受到限制。

旋转的数学过程：
旋转通常可以通过以下公式进行：
$\mathbf{F}_{\text{rotated}} = \mathbf{F} \mathbf{R}$
其中， $\mathbf{F}$ 是原始因子载荷矩阵， $\mathbf{R}$ 是旋转矩阵。其中对于旋转矩阵R，一般采用如下步骤：

定义目标函数：根据旋转方法的不同，定义一个目标函数，例如方差最大化或载荷分散。
初始化：随机初始化一个旋转矩阵 $\mathbf{R}$ 。
迭代优化：通过迭代算法（如梯度上升、共轭梯度法等）来优化目标函数，更新旋转矩阵 $\mathbf{R}$ 。
收敛条件：当目标函数达到一个局部最大值或满足其他收敛条件时，停止迭代。
得到旋转矩阵：最终得到的 $\mathbf{R}$ 就是所需的旋转矩阵。

PS:其中的迭代部分因旋转方法的不同而有所差异，因其计算过程较为复杂故不在此展示，一般可以通过计算机实现，例如，在R语言中，可以使用psych包中的fa()函数进行因子分析和旋转。在Python中，可以使用factor_analyzer库进行类似的操作

旋转后，需要重新计算因子得分和特定因子方差。

5.因子得分计算

因子得分是每个观测值在每个因子上的估计值，它们可以用于后续的分析或作为新的变量输入其他模型。
基于因子载荷和特定因子的得分计算：
$\hat{\mathbf{f}}_i = \mathbf{F} \mathbf{R}^T (\mathbf{x}_i - \bar{\mathbf{x}})$
其中， $\hat{\mathbf{f}}_i$ 是第 $i$ 个观测值的因子得分向量， $\mathbf{x}_i$ 是第 $i$ 个观测向量， $\bar{\mathbf{x}}$ 是观测向量的平均向量， $\mathbf{F}$ 是因子载荷矩阵， $\mathbf{R}$ 是旋转矩阵。
回归方法：
另一种计算因子得分的方法是通过回归，将观测变量作为因子得分的线性组合：
$\hat{\mathbf{f}} = \mathbf{F}^+ \mathbf{X}$
其中， $\mathbf{F}^+$ 是因子载荷矩阵的Moore-Penrose伪逆， $\mathbf{X}$ 是标准化后的观测数据矩阵。
得分的解释：
计算得到的因子得分可以用于解释每个观测值在每个因子上的位置，例如，一个高因子得分可能表示该观测值在该因子代表的潜在特质上具有较高的水平。
7. 模型评估：使用指标如卡方值、BIC等来评估模型的拟合度，公式为：
$-2\ln(L) + k\ln(n)$
其中 $L$ 是最大似然函数值， $k$ 是模型参数的数量， $n$ 是样本大小。这一步常用来检验旋转过程中是否过拟合。

应用

因子分析在多个领域有着广泛的应用：

心理学研究：用于识别心理特质或态度的潜在维度。
市场研究：发现消费者行为或偏好的潜在因素。
社会科学：探索社会现象的潜在结构。

局限性
尽管因子分析是一种强大的工具，但它也有一些局限性：

解释性：结果需要专业知识来解释，因子的命名和解释可能具有主观性。
数据质量：对数据质量要求较高，噪声和异常值可能影响结果。
因子数量：确定合适的因子数量是一个挑战，需要结合理论和实际数据进行判断。

实例

下面是一个python实现的因子分析例子，可供大家练习理解。
好的，我们将手动创建一个包含5个指标和6个观测值的数据集。数据集如下表所示：

观测值	X1	X2	X3	X4	X5
1	12	15	8	7	5
2	14	20	10	9	6
3	13	18	7	5	4
4	16	22	9	8	7
5	18	25	11	10	8
6	17	23	8	6	5

接下来，我们将使用Python对这个数据集进行因子分析，包括数据标准化、因子提取、旋转以及得分计算。
Python代码示例

import pandas as pd
from factor_analyzer import FactorAnalyzer

# 手动创建数据集
data = {
    'X1': [12, 14, 13, 16, 18, 17],
    'X2': [15, 20, 18, 22, 25, 23],
    'X3': [8, 10, 7, 9, 11, 8],
    'X4': [7, 9, 5, 8, 10, 6],
    'X5': [5, 6, 4, 7, 8, 5]
}

# 创建DataFrame
df = pd.DataFrame(data)

# 因子分析之前的数据标准化
df_std = (df - df.mean()) / df.std()

# 初始化FactorAnalyzer对象
fa = FactorAnalyzer(n_factors=2, rotation='varimax')

# 拟合模型
fa.fit(df_std)

# 打印旋转后的因子载荷
print("Rotated Factor Loadings:")
print(fa.loadings_)

# 计算因子得分
factor_scores = fa.transform(df_std)

# 将因子得分添加到原始DataFrame中
df['Factor1'], df['Factor2'] = factor_scores[:, 0], factor_scores[:, 1]

# 打印前几个观测值的因子得分
print("\nFactor Scores for observations:")
print(df[['Factor1', 'Factor2']])