1)问题描述
2)协方差矩阵的限制
3)多元高斯分布的边缘分布和条件分布
4)因子分析的例子
5)因子分析模型
6)因子分析的EM估计‘
7)简单总结
1)问题描述
之前我们考虑的训练数据中样例的个数m都远远大于其特征个数n,这样不管是进行回归、聚类等都没有太大的问题。
然而当训练样例个数m太小,甚至m<<n的时候,原来的方法就会产生很大的偏差;对于多元高斯分布而言,由于变成奇异阵(),也就是说不存在,根本没办法拟合训练样本。
这里我们讨论,在m<<n的情况下,通过使用称为因子分析(Factor Analysis)的方法达到降低训练样本的特征数n的目的,使n尽量接近m甚至小于m,这样使用多元高斯分布(Multivariate Gaussian distribution)仍然能够拟合训练样本。
2)协方差矩阵的限制
令, 其中, ,这样,协方差矩阵就变成对角线元素完全相同,其他元素都为0的矩阵,反映到二维高斯分布图上就是圆形。
当我们要估计出完整的时,我们需要m>=n+1才能保证在最大似然估计下得出的是非奇异的。然而在上面的假设限定条件下,只要m>=2都可以估计出限定的。这样做的缺点也是显然易见的,我们认为特征间独立,这个假设太强。接下来,我们给出一种称为因子分析的方法,使用更多的参数来分析特征间的关系,并且不需要计算一个完整的。
3)多元高斯分布的边缘分布和条件分布
在讨论因子分析之前,先看看多元高斯分布中,条件和边缘高斯分布的求法。这个在后面因子分析的EM推导中有用。