这部分内容还是挺奇怪的,学生的时候感觉不难啊,但是把复盘的时候,总是各种难以明说的困惑,不知道是不是因为戒烟,注意力不够专注,总之,学的不是很容易。
说归来因子分析,解决的是维度高,样本不足的情况下,模型建立的问题。我们之前讲的混合高斯模型里都是维度数远小于样本数的情况,如果维度是远大于样本数的话,我们仍然用以前的方法建立混合高斯模型会遇到问题,因为在这种情况,协方差会等于0,也就是说我们无法表示出高斯混合模型对应的概率密度。
对于这种情况,我们需要对协方差矩阵进行一些限定。有两种限定方式。
第一种:我们假设各个特征变量是独立,也就是说协方差矩阵是一个对角矩阵,对角线上的值都不为零
第二种:相比于第一种是更强的假设
但这种假设,他的问题在于,他完全消除了变量之间的关联性,而这个显然是不符合实际的。我们因子分析要解决的就是怎样估计出一个 合理的,非奇异协方差矩阵。
在我们介绍因子分析方法之前,我们需要对 边缘分布 和 条件分布有一些基本的了解。因为在因子分析EM算法中,要用到这部分的知识。