简介:本文主要介绍EM算法求解因子分析问题
因子分析Factor analysis
在文章 EM算法 求解混合高斯模型时,通常假设拥有足够多的样本去构造这个混合高斯分布,即样本数量n要远大于样本维数d: 如果样本数量小于样本维数,那么协方差矩阵 是奇异矩阵,那么 和都无法计算。在因子分析中,一个d维的向量通常由一个k维向量生成,通常k远小于d。具体模型如公式1所示:
公式1
上式中d x k维矩阵 称为因子载荷矩阵factor loading matrix,k维向量z称为因子factors,d维向量是满足均值为0,对角协方差矩阵的高斯分布的噪声,那么根据公式1该模型写成概率形式如公式2所示:
公式2
该模型如图1所示:
图1 因子分析生成模型
根据 Pattern Recognition and Machine Learning 已知公式2可得x的边缘概率和已知z的条件概率如公式3和公式4所示(详见原书公式2.113-2.117):
公式3