斯坦福大学公开课：机器学习课程（Andrew Ng）——12、无监督学习：Factor Analysis

最新推荐文章于 2024-08-08 08:18:11 发布

mmc2015

最新推荐文章于 2024-08-08 08:18:11 发布

阅读量2.6k

点赞数 1

分类专栏：《Machine Learning，Andrew Ng》

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/mmc2015/article/details/42458885

版权

因子分析是一种在m<<n时处理高维数据的无监督学习方法，通过假设特征间存在低维结构来降低特征数。该方法基于多元高斯分布，通过EM算法估计转换矩阵和误差协方差，揭示数据中潜在的因子，实现数据的降维和结构理解。因子分析不同于回归分析和主成分分析，关注的是不可观测的潜在因子，旨在捕获原始变量的主要信息。

摘要由CSDN通过智能技术生成

1）问题描述

2）协方差矩阵的限制

3）多元高斯分布的边缘分布和条件分布

4）因子分析的例子

5）因子分析模型

6）因子分析的EM估计‘

7）简单总结

1）问题描述

之前我们考虑的训练数据中样例的个数m都远远大于其特征个数n，这样不管是进行回归、聚类等都没有太大的问题。

然而当训练样例个数m太小，甚至m<<n的时候，原来的方法就会产生很大的偏差；对于多元高斯分布而言，由于变成奇异阵（），也就是说不存在，根本没办法拟合训练样本。

这里我们讨论，在m<<n的情况下，通过使用称为因子分析(Factor Analysis)的方法达到降低训练样本的特征数n的目的，使n尽量接近m甚至小于m，这样使用多元高斯分布(Multivariate Gaussian distribution)仍然能够拟合训练样本。

2）协方差矩阵的限制

令，其中，，这样，协方差矩阵就变成对角线元素完全相同，其他元素都为0的矩阵，反映到二维高斯分布图上就是圆形。

当我们要估计出完整的时，我们需要m>=n+1才能保证在最大似然估计下得出的是非奇异的。然而在上面的假设限定条件下，只要m>=2都可以估计出限定的。这样做的缺点也是显然易见的，我们认为特征间独立，这个假设太强。接下来，我们给出一种称为因子分析的方法，使用更多的参数来分析特征间的关系，并且不需要计算一个完整的。

3）多元高斯分布的边缘分布和条件分布

在讨论因子分析之前，先看看多元高斯分布中，条件和边缘高斯分布的求法。这个在后面因子分析的EM推导中有用。

假设x是有两个随机向量组成（可以看作是将之前的分成了两部分），其中，，那么。

假设x服从多元高斯分布，其中，其中，，那么，，由于协方差矩阵是对称阵，因此

最低0.47元/天解锁文章

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。