因子分析学习笔记
在本文中,我们将探讨因子分析的理论和实践应用,包括常见的因子分析模型、评估因子数的方法等等。
一、背景知识
1.1 相关系数
样本 x i x_i xi 和 y i y_i yi 的相关系数定义为:
r x y = ∑ i = 1 n ( x i − x ˉ ) ( y i − y ˉ ) ∑ i = 1 n ( x i − x ˉ ) 2 ∑ i = 1 n ( y i − y ˉ ) 2 r_{xy}=\frac{\sum_{i=1}^n(x_i-\bar{x})(y_i-\bar{y})}{\sqrt{\sum_{i=1}^n(x_i-\bar{x})^2}\sqrt{\sum_{i=1}^n(y_i-\bar{y})^2}} rxy=∑i=1n(xi−xˉ)2∑i=1n(yi−yˉ)2∑i=1n(xi−xˉ)(yi−yˉ)
其中, n n n 表示样本个数, x ˉ , y ˉ \bar{x},\bar{y} xˉ,yˉ 分别表示样本 x i , y i x_i,y_i xi,yi 的平均值。如果样本 x i x_i xi 和 y i y_i yi 的相关系数越接近于 1 1 1,则说明二者之间的关系越密切;如果相关系数越接近于 0 0 0,则说明二者之间的关系越弱;如果相关系数越接近于 − 1 -1 −1,则说明二者之间的关系越相反。
1.2 协方差矩阵
如果有两个变量 x 1 , x 2 x_1,x_2 x1,x2,它们的协方差定义为:
C o v ( x 1 , x 2 ) = E [ ( x 1 − μ 1 ) ( x 2 − μ 2 ) ] Cov(x_1,x_2)=E[(x_1-\mu_1)(x_2-\mu_2)] Cov(x1,x2)=E[(x1−μ1)(x2−μ2)]
其中, E E E 表示期望, μ 1 , μ 2 \mu_1,\mu_2 μ1,μ2 分别表示 x 1 , x 2 x_1,x_2 x1,x2 的均值。如果有 k k k 个变量 x 1 , x 2 , ⋯ , x k x_1,x_2,\cdots,x_k x1,x2,⋯,xk,则它们两两之间的协方差可以组成一个 k × k k×k k×k 的矩阵,称为协方差矩阵。
1.3 特征值和特征向量
设 A A A 是 n × n n×n n×n 的矩阵,若对某个数 λ \lambda λ 和非零向量 x x x,都满足 A x = λ x Ax=\lambda x Ax=λx,则称 λ \lambda λ 是 A A A 的特征值, x x x 是 A A A 的对应于特征值 λ \lambda λ 的特征向量。
二、因子分析模型
在因子分析模型中,我们假设原始的变量是由若干个未知的因子和随机误差共同作用得到的。这些因子是我们无法直接观察和测量的,但是可以通过观察到的原始变量来进行推断。
2.1 模型表达式
设有 p p p 个变量 x 1 , x 2 , ⋯ , x p x_1,x_2,\cdots,x_p x1,x2,⋯,xp,我们将它们组成一个 p × 1 p×1 p×1 的列向量 x \textbf{x} x。
我们假设 x \textbf{x} x 由 m m m 个因子和一个错误项组成,这个错误项是一个随机变量,记为 ϵ \epsilon ϵ。我们将 m m m 个因子组成一个 m × 1 m×1 m×1 的列向量 f \textbf{f} f,将误差项 ϵ \epsilon ϵ 表示为 E ( ϵ ) = 0 , V a r ( ϵ ) = ψ E(\epsilon)=0,\ Var(\epsilon)=\psi E(ϵ)=0, Var(ϵ)=ψ,则可以得到如下的模型表达式:
x = LF + ϵ \textbf{x}=\textbf{LF}+\epsilon x=LF+ϵ
其中, L \textbf{L} L 是 p × m p×m p×m 的矩阵,表示每一个变量与每一个因子的载荷; F \textbf{F} F 是 m × 1 m×1 m×1 的列向量,表示各个因子的分数。
2.2 模型假设
因子分析模型的基本假设有两个:
- 原始变量是由少数几个因子决定的,即存在因子结构;
- 每一个原始变量与每一个因子之间存在一定的相关性。
2.3 模型参数估计
因子分析模型中的参数有三类:载荷矩阵 L \textbf{L} L、因子方差 D \textbf{D} D 和误差方差 ψ \psi ψ。
常见的参数估计方法有主成分分析法和最大似然估计法。其中,主成分分析法是一种无假设检验的方法,具有较好的稳健性,但是不能处理错误项的相关性;最大似然估计法可以处理错误项的相关性,但是需要对参数进行假设检验。
三、评估因子数
因子分析中的一个重要问题是如何确定因子数。常见的方法有贡献率法、平行分析法和信息量法。
3.1 贡献率法
贡献率法是通过观察每一个因子对总方差的贡献率来确定因子数。具体来说,我们计算出每一个因子的贡献率,并将它们按照大小排序,选取前 k k k 个因子,使它们的贡献率之和超过 70 % 70\% 70% 或者 80 % 80\% 80% 等阈值。
3.2 平行分析法
平行分析法是一种基于随机数据模拟的方法。具体来说,我们生成若干个与原始数据具有相同特征的随机数据集,运行因子分析模型,得到每一个随机数据集的因子数。最终,我们将这些因子数的平均值作为真实因子数的估计值。
3.3 信息量法
信息量法是基于信息量原理的一种方法。该方法认为,当因子数增加时,每个因子能够解释的变异量会逐渐减小,直到趋于一个稳定值。我们可以使用信息量来描述每个因子的解释能力,然后根据信息量的变化率来确定因子数。
四、应用实例
因子分析在实际应用中有广泛的应用,例如消费者行为研究、心理学测量、教育评估等领域。下面以心理学测量为例,介绍如何运用因子分析。
假设我们要研究一个人的智力水平,我们可以将智力分为不同的方面,例如语言理解、数字计算、空间想象等,并使用一系列测试来测量这些方面。对于每一个测试,我们可以记录被试者的得分,从而得到一个 n × p n×p n×p 的数据矩阵。
通过因子分析,我们可以将这些测试分成若干个因子,每个因子代表一种智力方面。具体来说,我们可以根据贡献率法或者其他方法来确定因子数,然后运行因子分析模型,得到载荷矩阵 L \textbf{L} L 和因子方差 D \textbf{D} D。
最终,我们可以将每一个因子的载荷与其对应的智力方面进行对比,从而理解它们之间的关系,进而评估被试者的智力水平。
以上就是因子分析的基本内容,希望能够对读者有所帮助。