斯坦福大学公开课 :机器学习课程(Andrew Ng)——12、无监督学习:Factor Analysis

1)问题描述

2)协方差矩阵的限制

3)多元高斯分布的边缘分布和条件分布

4)因子分析的例子

5)因子分析模型

6)因子分析的EM估计

7)简单总结



1)问题描述

   之前我们考虑的训练数据中样例clip_image002的个数m都远远大于其特征个数n,这样不管是进行回归、聚类等都没有太大的问题。

   然而当训练样例个数m太小,甚至m<<n的时候,原来的方法就会产生很大的偏差;对于多元高斯分布而言,由于clip_image010[1]变成奇异阵(clip_image012),也就是说clip_image014不存在,根本没办法拟合训练样本。

   这里我们讨论,在m<<n的情况下,通过使用称为因子分析(Factor Analysis)的方法达到降低训练样本的特征数n的目的,使n尽量接近m甚至小于m,这样使用多元高斯分布(Multivariate Gaussian distribution)仍然能够拟合训练样本。

2)协方差矩阵的限制

    令clip_image020, 其中,     clip_image022  ,这样,协方差矩阵就变成对角线元素完全相同,其他元素都为0的矩阵,反映到二维高斯分布图上就是圆形。

    当我们要估计出完整的clip_image010[10]时,我们需要m>=n+1才能保证在最大似然估计下得出的clip_image010[11]是非奇异的。然而在上面的假设限定条件下,只要m>=2都可以估计出限定的clip_image010[12]。这样做的缺点也是显然易见的,我们认为特征间独立,这个假设太强。接下来,我们给出一种称为因子分析的方法,使用更多的参数来分析特征间的关系,并且不需要计算一个完整的clip_image010[13]

3)多元高斯分布的边缘分布和条件分布

在讨论因子分析之前,先看看多元高斯分布中,条件和边缘高斯分布的求法。这个在后面因子分析的EM推导中有用。

假设x是有两个随机向量组成(可以看作是将之前的clip_image024分成了两部分)    clip_image026,     其中clip_image028clip_image030,那么clip_image032

假设x服从多元高斯分布clip_image034,其中    clip_image035, 其中clip_image037clip_image039,那么clip_image041clip_image043,由于协方差矩阵是对称阵,因此

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值