数据科学之机器学习16:因子分析1

最新推荐文章于 2022-10-12 17:25:09 发布

昵称我不需要

最新推荐文章于 2022-10-12 17:25:09 发布

阅读量1.6k

点赞数

分类专栏：数据科学文章标签：大数据数据机器学习

数据科学专栏收录该内容

20 篇文章 0 订阅

订阅专栏

artical 34

图片来源于网址

“文章原创，转载请注明出处”

前一篇介绍的主成分分析(PCA)，是一种降维技术；这一篇介绍的因子分析也是一种降维的方法，不仅如此，还可以将因子分析看作是主成分分析的一种推广和发展。与之主成分分析相比较，因子分析更为灵活，对变量降维后的解释能够更加清楚。

但因子分析和主成分分析有非常多的不同点。

主成分分析不能作为一个模型来描述，主成分是观测变量的线性组合；
因子分析需要构造因子模型，观测的原始变量是因子的线性组合。

初窥

在介绍因子模型之前，可以先看看这个因子分析到底是要干什么，以及是怎么干的！

在二维空间中，主成分分析，它想做的是寻找一组新的变量 y1,y2 ，用它去替代原来的变量 x1,x2 ，并且满足 y1 和 y2 这两个变量都是 x1,x2 两个变量的线性组合！即：

而在因子模型中，我们需要做的跟此不同。我们需要找到一组潜在变量(不可观测)，用这组潜在变量的线性组合去表示原始变量 x1,x2 。这里假设有1个潜在变量 f1 ，那么因子模型可以描述成：

其中， f1 就是因子，称为公共因子； aij 称之为变量 xi 在因子 fj 上的载荷； μi 是 xi 的均值； εi 为特殊因子，即不能被公共因子解释的部分。

正交因子模型

首先看看最基础的因子模型，就是正交假设下的因子模型：

在给出假定之前，我们先将上面式子转换成矩阵形式：

x = μ + A f + ε

其中， x=(x1,x2,…,xp)′ ， μ=(μ1,μ2,…,μp)′ 为均值向量， ε=(ε1,ε2,…,εp)′ 为特殊因子向量, f=(f1,f2,…,fp)′ 为公共因子向量， A=(aij):p×m 为载荷矩阵。那么我们就可以给出如下的正交假设：

在这样的假定下，我们首先来计算一下，原始变量 x 的协方差：

Σ = V (x) = V (A f + ε) = C o v (A f + ε, A f + ε)

又： Cov(Af+ε,Af+ε)=AV(f)A′+ACov(f,ε)+Cov(ε,f)A′+V(ε)

由于 V(f)=I,Cov(f,ε)=Cov(ε,f)=0 ，所以：

Σ = A A' + V (ε) = A A' + D

显然，我们要处理正交因子模型，最重要的就是求解 A,D 的估计值，那么这里就给出了这两个量与原始变量的协方差矩阵间的关系。

那么我们开始所说的，因子分析也是一种降维手段体现在哪里呢？这个就体现在，公共因子的数量上，当公共因子的数量少于原始变量的数量时，使用因子去解释原始变量就达到了一种降维的目的！

载荷矩阵

显然，载荷矩阵 A 是我们关心的一个重点。首先，我们想弄明白 A 中的元素 aij 是否有什么具体的含义：

C o v (x i, f j) = C o v (\sum k = 1 m a i k f k + ε i, f j) = a i j C o v (f j, f j) = a i j

那么可以看到， aij 是 xi 和 fj 之间的协方差函数。

经过上面的计算，我们容易得到：

V (x i) = a 2 i 1 + a 2 i 2 + \dots + a 2 1 m + V (ε i)

记 h2i=∑mj=1a2ij ，那么上式可转化为：

(V (x i) =) σ i i = h 2 i + σ 2 i, i = 1, 2, \dots, p

这样就将 xi 的方差进行了一个分解，一部分由公共因子解释，即 h2i ，称为共性方差；另一部分由特殊因子解释，即 σ2i ，称为特殊方差。

至此，因子分析的基础模型就介绍完了，下面剩下的就是如何去进行参数的估计，这一般有三种方法：主成分法、主因子法以及极大似然法。下一篇，我们就来详细说说因子分析的参数估计问题。

转自：http://jackycode.github.io/blog/2014/05/14/factor-analysis1/

昵称我不需要

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
数据科学之机器学习16:因子分析1

图片来源于网址“文章原创，转载请注明出处”前一篇介绍的主成分分析(PCA)，是一种降维技术；这一篇介绍的因子分析也是一种降维的方法，不仅如此，还可以将因子分析看作是主成分分析的一种推广和发展。与之主成分分析相比较，因子分析更为灵活，对变量降维后的解释能够更加清楚。但因子分析和主成分分析有非常多的不同点。主成分分析不能作为一个模型来描述，主成分是观测变量的线性组合；因子分析需
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。