斯坦福大学公开课 :机器学习课程(Andrew Ng)——12、无监督学习:Factor Analysis

因子分析是一种在m<<n时处理高维数据的无监督学习方法,通过假设特征间存在低维结构来降低特征数。该方法基于多元高斯分布,通过EM算法估计转换矩阵和误差协方差,揭示数据中潜在的因子,实现数据的降维和结构理解。因子分析不同于回归分析和主成分分析,关注的是不可观测的潜在因子,旨在捕获原始变量的主要信息。
摘要由CSDN通过智能技术生成

1)问题描述

2)协方差矩阵的限制

3)多元高斯分布的边缘分布和条件分布

4)因子分析的例子

5)因子分析模型

6)因子分析的EM估计

7)简单总结



1)问题描述

   之前我们考虑的训练数据中样例clip_image002的个数m都远远大于其特征个数n,这样不管是进行回归、聚类等都没有太大的问题。

   然而当训练样例个数m太小,甚至m<<n的时候,原来的方法就会产生很大的偏差;对于多元高斯分布而言,由于clip_image010[1]变成奇异阵(clip_image012),也就是说clip_image014不存在,根本没办法拟合训练样本。

   这里我们讨论,在m<<n的情况下,通过使用称为因子分析(Factor Analysis)的方法达到降低训练样本的特征数n的目的,使n尽量接近m甚至小于m,这样使用多元高斯分布(Multivariate Gaussian distribution)仍然能够拟合训练样本。

2)协方差矩阵的限制

    令clip_image020, 其中,     clip_image022  ,这样,协方差矩阵就变成对角线元素完全相同,其他元素都为0的矩阵,反映到二维高斯分布图上就是圆形。

    当我们要估计出完整的clip_image010[10]时,我们需要m>=n+1才能保证在最大似然估计下得出的clip_image010[11]是非奇异的。然而在上面的假设限定条件下,只要m>=2都可以估计出限定的clip_image010[12]。这样做的缺点也是显然易见的,我们认为特征间独立,这个假设太强。接下来,我们给出一种称为因子分析的方法,使用更多的参数来分析特征间的关系,并且不需要计算一个完整的clip_image010[13]

3)多元高斯分布的边缘分布和条件分布

在讨论因子分析之前,先看看多元高斯分布中,条件和边缘高斯分布的求法。这个在后面因子分析的EM推导中有用。

假设x是有两个随机向量组成(可以看作是将之前的clip_image024分成了两部分)    clip_image026,     其中clip_image028clip_image030,那么clip_image032

假设x服从多元高斯分布clip_image034,其中    clip_image035, 其中clip_image037clip_image039,那么clip_image041clip_image043,由于协方差矩阵是对称阵,因此

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值