10 因子分析(进阶版)

10 因子分析(进阶版)

标签: 机器学习与数据挖掘
(此篇的R代码对应本博客系列《11 R语言手册(第四站 降维方法)》)

1.因子分析定义

  有p个成分的观测随机向量X,有均值 μ \boldsymbol{\mu} μ和协方差矩阵 Σ \boldsymbol{\varSigma} Σ。因子模型要求X是线性依赖于几个不能观测的称之为公共因子的随机变量 F 1 , F 2 , . . . , F m F_1,F_2,...,F_m F1,F2,...,Fm和p个附加的称之为误差或有时也称为特殊因子的变差源 ε 1 , ε 2 , . . . , ε p \varepsilon _1,\varepsilon _2,...,\varepsilon_p ε1,ε2,...,εp。具体地,因子分析模型是:
X 1 − μ 1    =    l 11 F 1    +    l 12 F 2    +    . . . +    l 1 m F m    +    ε 1 X 2 − μ 2    =    l 21 F 1    +    l 22 F 2    +    . . . +    l 2 m F m    +    ε 2 . . . . . . X p − μ p    =    l p 1 F 1    +    l p 2 F 2    +    . . . +    l p m F m    +    ε p X_1-\mu _1\,\,=\,\,l_{11}F_1\,\,+\,\,l_{12}F_2\,\,+\,\,...+\,\,l_{1m}F_m\,\,+\,\,\varepsilon _1 \\ X_2-\mu _2\,\,=\,\,l_{21}F_1\,\,+\,\,l_{22}F_2\,\,+\,\,...+\,\,l_{2m}F_m\,\,+\,\,\varepsilon _{\begin{array}{c} \begin{array}{c} 2\\ \end{array}\\ \end{array}} \\ ...... \\ X_p-\mu _p\,\,=\,\,l_{p1}F_1\,\,+\,\,l_{p2}F_2\,\,+\,\,...+\,\,l_{pm}F_m\,\,+\,\,\varepsilon _p X1μ1=l11F1+l12F2+...+l1mFm+ε1X2μ2=l21F1+l22F2+...+l2mFm+ε2......Xpμp=lp1F1+lp2F2+...+lpmFm+εp
或者直接写成矩阵的形式:
X − μ ( p × 1 ) = L ( p × m )    F ( m × 1 )    + ε ( p × 1 ) \mathop{\boldsymbol{X}-\boldsymbol{\mu }}_{\left( p\times 1 \right)}=\underset{\left( p\times m \right)}{\boldsymbol{L}}\,\,\underset{\left( m\times 1 \right)}{\boldsymbol{F}}\,\,+\underset{\left( p\times 1 \right)}{\boldsymbol{\varepsilon }} Xμ(p×1)=(p×m)L(m×1)F+(p×1)ε

  我们称系数 l i j l_{ij} lij为第 i i i个变量在第 j j j个因子上的载荷,故,矩阵L是因子载荷阵。
  注意,第 i i i个特殊因子 ε i \varepsilon _i εi只与第 i i i个响应 X i X_i Xi相联系。而且 p p p个差 X 1 − μ 1 , X 2 − μ 2 , . . . , X p − μ p X_1-\mu _1,X_2-\mu _2,...,X_p-\mu _p X1μ1,X2μ2,...,Xpμp p + m p+m p+m个随机变量 F 1 , F 2 , . . . , F m , ε 1 , ε 2 , . . . , ε p F_1,F_2,...,F_m,\varepsilon _1,\varepsilon _2,...,\varepsilon_p F1,F2,...,Fm,ε1,ε2,...,εp表达,这些是不能被观测到的。
  因此没有办法从 X 1 , X 2 , . . . X P X_1,X_2,...X_P X1,X2,...XP这些观测值来直接确认这个因子模型。所以我们通过对随机向量F,和 ε \boldsymbol{\varepsilon } ε作某些附加假设后,我们可以推出某种协方差关系。
E ( F ) = 0, C o v ( F ) = E [ F F ′ ] = I ( m × m ) E ( ε ) = 0 ( p × 1 ) , C o v ( ε ) = E [ ε ε ′ ] = Ψ ( p × p ) = [ l ψ 1 0 ⋯ 0 0 ψ 2 ⋯ 0 ⋮ ⋮ ⋱ ⋮ 0 0 ⋯ ψ p ] E\left( F \right) =\text{0,}Cov\left( F \right) =E\left[ FF' \right] =\underset{\left( m\times m \right)}{\boldsymbol{I}} \\ E\left( \varepsilon \right) =\underset{\left( p\times 1 \right)}{0},Cov\left( \boldsymbol{\varepsilon } \right) =E\left[ \boldsymbol{\varepsilon \varepsilon '} \right] =\underset{\left( p\times p \right)}{\boldsymbol{\varPsi }}=\left[ \begin{matrix}{l} \psi _1& 0& \cdots& 0\\ 0& \psi _2& \cdots& 0\\ \vdots& \vdots& \ddots& \vdots\\ 0& 0& \cdots& \psi _p\\ \end{matrix} \right] E(F)=0,Cov(F)=E[FF]=(m×m)IE(ε)=(p×1)0,Cov(ε)=E[εε]=(p×p)Ψ=lψ1000ψ2000ψp
且,F ε \boldsymbol{\varepsilon} ε独立,故
C o v ( ε , F ) = E ( ε F ′ ) = 0 Cov\left( \boldsymbol{\varepsilon ,F} \right) =E\left( \boldsymbol{\varepsilon F'} \right) =0 Cov(ε,F)=E(εF)=0
这样,这些假设和我们的因子分析模型就能构成正交因子模型
在这里插入图片描述
正交因子模型推出X的协方差结构:
Σ = C o v ( X ) = E ( X − μ ) ( X − μ ) ′ = L E ( F F ′ ) L ′ + E ( ε F ′ ) L ′ + L E ( F ε ′ ) + E ( ε ε ′ ) = L L ′ + Ψ \boldsymbol{\varSigma }=Cov\left( \boldsymbol{X} \right) \\ =E\left( \boldsymbol{X}-\mu \right) \left( \boldsymbol{X}-\mu \right) ' \\ =\boldsymbol{L}E\left( \boldsymbol{FF'} \right) \boldsymbol{L'}+E\left( \boldsymbol{\varepsilon F'} \right) \boldsymbol{L'}+\boldsymbol{L}E\left( \boldsymbol{F\varepsilon '} \right) +E\left( \boldsymbol{\varepsilon \varepsilon '} \right) \\ =\boldsymbol{LL'}+\boldsymbol{\varPsi } Σ=Cov(X)=E(Xμ)(Xμ)=LE(FF)L+E(εF)L+LE(Fε)+E(εε)=LL+Ψ
根据上式的推导,也有:
( X − μ ) F ′ = ( L F + ε ) F ′ = L F F ′ + ε F ′ \left( \boldsymbol{X}-\boldsymbol{\mu } \right) \boldsymbol{F'}=\left( \boldsymbol{LF}+\boldsymbol{\varepsilon } \right) \boldsymbol{F'} \\ =\boldsymbol{LFF'}+\boldsymbol{\varepsilon F'} (Xμ)F=(LF+ε)F=LFF+εF
C o v ( X , F ) = E ( X − μ ) F ′ = E ( X − μ ) F ′ = L E ( F F ′ ) + E ( ε F ′ ) = L Cov\left( \boldsymbol{X,F} \right) =E\left( \boldsymbol{X}-\boldsymbol{\mu } \right) \boldsymbol{F'} \\ =E\left( \boldsymbol{X}-\boldsymbol{\mu } \right) \boldsymbol{F'} \\ =\boldsymbol{L}E\left( \boldsymbol{FF'} \right) +E\left( \boldsymbol{\varepsilon F'} \right) \\ =\boldsymbol{L} Cov(X,F)=E(Xμ)F=E(Xμ)F=LE(FF)+E(εF)=L
总结一下:
在这里插入图片描述
m m m个公共因子贡献的第 i i i个变量的方差部分,叫做第 i i i个共性方差。属于特殊因子的$ Var\left( X_i \right) =\sigma {ii} 部 分 , 常 称 为 独 特 方 差 或 特 殊 方 差 。 用 部分,常称为独特方差或特殊方差。用 h{i}^{2} 出 记 第 出记第 i$个共性方差,从我们看到:
在这里插入图片描述

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值