潜在因子模型是一种常用的多元统计方法,用于探索观测数据中的潜在结构。其基本假设是观测变量之间存在一些未被观察到的潜在因子或隐变量,这些潜在因子通过载荷矩阵与观测变量相关联。
载荷矩阵(loading matrix)是指描述每个潜在因子与观测变量之间关系的矩阵。具体而言,如果有 p p p 个观测变量和 k k k 个潜在因子,则载荷矩阵为 p × k p \times k p×k 的矩阵,其中第 j j j 列表示第 j j j 个观测变量与所有潜在因子之间的相关系数。
潜在因子矩阵(latent factor matrix)则是一个 n × k n \times k n×k 的矩阵,其中第 i i i 行表示第 i i i 个观测样本在所有潜在因子上的得分。
潜在因子模型通常使用最小二乘法进行参数估计,其推导过程可以分为以下几步:
假设观测数据服从如下线性模型:
X = Λ F + Ψ \boldsymbol{X} = \boldsymbol{\Lambda F} + \boldsymbol{\Psi} X=ΛF+Ψ
其中 X \boldsymbol{X} X 是观测数据 n × p n \times p n×p 的矩阵, Λ \boldsymbol{\Lambda} Λ 是载荷矩阵, F \boldsymbol{F} F 是潜在因子矩阵, Ψ \boldsymbol{\Psi} Ψ 是误差项。
假设潜在因子之间相互独立,且与观测变量无关。即,
cov ( F ) = I k \text{cov}(\boldsymbol{F}) = \boldsymbol{I}_k cov(F)=Ik
并且,
cov ( F , Ψ ) = 0 \text{cov}(\boldsymbol{F}, \boldsymbol{\Psi}) = \boldsymbol{0} cov(F,Ψ)=0
将模型转化为矩阵形式,并对误差项进行标准化处理,使其满足方差为单位 p × p p \times p p×p 矩阵的多元正态分布。经过简单的矩阵运算后,可以得到如下形式的最小二乘拟合函数:
F ^ = ( Λ T Σ − 1 Λ ) − 1 Λ T Σ − 1 X \boldsymbol{\hat{F}} = (\boldsymbol{\Lambda}^T\boldsymbol{\Sigma}^{-1}\boldsymbol{\Lambda})^{-1}\boldsymbol{\Lambda}^T\boldsymbol{\Sigma}^{-1}\boldsymbol{X} F^=(ΛTΣ−1Λ)−1ΛTΣ−1X
其中 Σ \boldsymbol{\Sigma} Σ 是误差项的协方差矩阵。
将最小二乘拟合函数代入原始模型中,可以得到观测数据的估计值:
X ^ = Λ F ^ + Ψ ^ \boldsymbol{\hat{X}} = \boldsymbol{\Lambda\hat{F}} + \boldsymbol{\hat{\Psi}} X^=ΛF^+Ψ^
最后,通过比较观测数据和其估计值的残差平方和来评价模型的拟合优度。