因子模型
对于降维算法里,大家熟知的是SVD和PCA,甚至是t-sne。但在统计解释上来说,降维算法找到了相应的低维子空间,但解释力不足,比如PCA,对于降维后数据的解释力降低。因此对于小规模数据集,在变量众多的情况下,因子模型是较好的处理多变量的方法。通过PCA降维估计,再进行因子旋转,使得因子模型在降维的同时具备了较好的解释力。
准备工作
因子模型假设中心化的X线性依赖于一些未观测到的随机变量 F1,...,Fm F 1 , . . . , F m 和误差,称 F1,...,Fm F 1 , . . . , F m 为公共因子,因子模型可表示为以下一式:
其中 L=(lij)p×m L = ( l i j ) p × m 为因子载荷矩阵, lij l i j 为第i个变量在第j个因子上的载荷(描述了第i个变量和第j个因子的相关性), Fm×1 F m × 1 称为公共因子, εp×1 ε p × 1 称为特殊因子。
因子模型假设:
1. E(F)=0,Cov(F)=Im E ( F ) = 0 , C o v ( F ) = I m
2. E(ϵ)=0,Cov(ϵ)=φp×p=diag(φ1...φp) E ( ϵ ) = 0 , C o v ( ϵ ) = φ p × p = d i a g ( φ 1 . . . φ p )
3. Cov(ε,F)=0 C o v ( ε , F ) = 0
4. Cov(X)=Σp×m=LL′+φ,Cov(X,F)=Lp×m C o v ( X ) = Σ p × m = L L ′ + φ , C o v ( X , F ) = L p × m
其中第四条假设为因子模型的核心,则对于i=1,…,p,令 l(i) l ( i ) 为L的第i行,则有:
{
V