1 简介
原始的变量是可观测的显在变量,而假想变量是不可观测的潜在变量,称为
因子
因子分析
是主成分分析的推广,它也是多元统计分析中常用的一种降维方式
因子分析--->数据降维
2 基本思想
根据相关性大小把原始变量分组,使得同组内的变量之间相关性较高,而不同组的变量间的相关性则较低。每组变量代表一个基本结构,并用一个不可测的综合变量表示,这个基本结构就称为
公共因子
3 数学模型
假设 p p p个随机变量 X i ( i = 1 , 2 , . . . , p ) X_i(i=1,2,...,p) Xi(i=1,2,...,p)满足模型:
X i = μ i + α i 1 F 1 + . . . + α i m F m + ε i ( m ≤ p ) {X_i} = {\mu _i} + {\alpha _{i1}}{F_1} + ... + {\alpha _{im}}{F_m} + {\varepsilon _i}{\rm{ (}}m \le p) Xi=μi+αi1F1+...+αimFm+εi(m≤p)
{ X 1 = μ 1 + α 11 F 1 + . . . + α 1 m F m + ε 1 X 2 = μ 2 + α 21 F 1 + . . . + α 2 m F m + ε 2 . . . . . . X p = μ p + α p 1 F 1 + . . . + α p m F m + ε p \left\{ {\begin{array}{cc} {{X_1} = {\mu _1} + {\alpha _{11}}{F_1} + ... + {\alpha _{1m}}{F_m} + {\varepsilon _1}}\\ {{X_2} = {\mu _2} + {\alpha _{21}}{F_1} + ... + {\alpha _{2m}}{F_m} + {\varepsilon _2}}\\ {......}\\ {{X_p} = {\mu _p} + {\alpha _{p1}}{F_1} + ... + {\alpha _{pm}}{F_m} + {\varepsilon _p}} \end{array}} \right. ⎩⎪⎪⎨⎪⎪⎧X1=μ1+α11F1+...+α1mFm+ε1X2=μ2+α21F1+...+α2mFm+ε2......Xp=μp+αp1F1+...+αpmFm+εp
则称此式的模型为因子模型
,用矩阵形式简记为:
X
=
μ
+
A
F
+
ε
X = \mu + AF + \varepsilon
X=μ+AF+ε
其中,
F
i
F_i
Fi为公共因子
,是不可观测的变量,它们的系数
α
i
j
{\alpha _{ij}}
αij称为载荷因子
;
A
=
(
α
i
j
)
p
×
m
A = {({\alpha _{ij}})_{p \times m}}
A=(αij)p×m为因子载荷矩阵
;
ε
i
{\varepsilon _i}
εi是特殊因子
,是不能被前m个公共因子包含的部分
因子分析的可行性分析:
相关系数矩阵
【大部分相关系数都>0.3
时可进行因子分析】KMO
(Kaiser-Meyer-Olkin)检验
:检验变量之间的偏相关系数是否过小【此值>0.5
时可进行因子分析】Bartlett's检验
:检验显著性水平(Sig.)【此值<0.05
时可进行因子分析】变量共同度
【较高
时可进行因子分析】
因子分析模型的性质:载荷矩阵不是唯一的
3.1 公共因子及载荷矩阵
公共因子数目的两种确定依据:
- 碎石图
- 累积方差贡献率
因子载荷矩阵的统计性质:
- 因子载荷 α i j {\alpha _{ij}} αij: c o v ( X i , F j ) = α i j {\mathop{\rm cov}} ({X_i},{F_j}) = {\alpha _{ij}} cov(Xi,Fj)=αij,即 a i j a_{ij} aij是 X i X_i Xi和 F j F_j Fj的协方差(相关系数)
- 变量共同度 h i 2 {h_i}^2 hi2:因子载荷矩阵A中第i行元素的平方哈,记为 h i 2 = ∑ j = 1 m α i j 2 ( i = 1 , 2 , . . . , p ) {h_i}^2 = \sum\limits_{j = 1}^m {\alpha _{ij}^2} {\rm{ (i=1,2,...,p)}} hi2=j=1∑mαij2(i=1,2,...,p)
- 公共因子 F j F_j Fj方差贡献和 S j S_j Sj
因子载荷矩阵的三种估计方法:
- 主成分分析法
- 主因子法
- 最大似然估计法
3.2 因子旋转(正交变换)
- 方差最大法:从简化因子载荷矩阵的每一列出发,使和每个因子有关的载荷的平方的方差最大
- 四次方最大法:使因子载荷矩阵中每一行的因子载荷平方的方差达到最大
- 等量最大法:把方差最大法和四次方最大法结合起来,求它们的加权平均最大
3.3 因子得分
因子得分
就是公共因子在每一个样本点上的得分,由于 p > m p>m p>m,所以不能得到精确值,只能通过估计
因子得分函数 F j = c j + β j 1 X 1 + . . . + β j p X p , j = 1 , 2 , . . . , m {F_j} = {c_j} + {\beta _{j1}}{X_1} + ... + {\beta _{jp}}{X_p},j = 1,2,...,m Fj=cj+βj1X1+...+βjpXp,j=1,2,...,m
因子得分的两种估计方法:
-
巴特莱特法(加权最小二乘法)
-
回归分析法
4 步骤
- 根据问题
选取原始变量
,对数据进行标准化处理
- 计算
相关系数矩阵
,分析变量之间的相关性(较强) - 求解
公共因子及载荷矩阵
因子旋转
(正交变换)- 计算
因子得分