数据科学之机器学习16:因子分析1

artical 34

图片来源于网址

“文章原创,转载请注明出处”


前一篇介绍的主成分分析(PCA),是一种降维技术;这一篇介绍的因子分析也是一种降维的方法,不仅如此,还可以将因子分析看作是主成分分析的一种推广和发展。与之主成分分析相比较,因子分析更为灵活,对变量降维后的解释能够更加清楚。

但因子分析和主成分分析有非常多的不同点。

  1. 主成分分析不能作为一个模型来描述,主成分是观测变量的线性组合;
  2. 因子分析需要构造因子模型,观测的原始变量是因子的线性组合。

初窥

在介绍因子模型之前,可以先看看这个因子分析到底是要干什么,以及是怎么干的!

在二维空间中,主成分分析,它想做的是寻找一组新的变量 y1,y2 ,用它去替代原来的变量 x1,x2 ,并且满足 y1 y2 这两个变量都是 x1,x2 两个变量的线性组合!即:

而在因子模型中,我们需要做的跟此不同。我们需要找到一组潜在变量(不可观测),用这组潜在变量的线性组合去表示原始变量 x1,x2 。这里假设有1个潜在变量 f1 ,那么因子模型可以描述成:

其中, f1 就是因子,称为公共因子 aij 称之为变量 xi 在因子 fj 上的载荷 μi xi 的均值; εi 为特殊因子,即不能被公共因子解释的部分。


正交因子模型

首先看看最基础的因子模型,就是正交假设下的因子模型:

在给出假定之前,我们先将上面式子转换成矩阵形式:

x=μ+Af+ε

其中, x=(x1,x2,,xp) μ=(μ1,μ2,,μp) 为均值向量, ε=(ε1,ε2,,εp) 为特殊因子向量,  f=(f1,f2,,fp) 为公共因子向量, A=(aij):p×m 为载荷矩阵。那么我们就可以给出如下的正交假设:

在这样的假定下,我们首先来计算一下,原始变量 x 的协方差:

Σ=V(x)=V(Af+ε)=Cov(Af+ε,Af+ε)

又: Cov(Af+ε,Af+ε)=AV(f)A+ACov(f,ε)+Cov(ε,f)A+V(ε)

由于 V(f)=I,Cov(f,ε)=Cov(ε,f)=0 ,所以:

Σ=AA+V(ε)=AA+D

显然,我们要处理正交因子模型,最重要的就是求解 A,D 的估计值,那么这里就给出了这两个量与原始变量的协方差矩阵间的关系。

那么我们开始所说的,因子分析也是一种降维手段体现在哪里呢?这个就体现在,公共因子的数量上,当公共因子的数量少于原始变量的数量时,使用因子去解释原始变量就达到了一种降维的目的!


载荷矩阵

显然,载荷矩阵 A 是我们关心的一个重点。首先,我们想弄明白 A 中的元素 aij 是否有什么具体的含义:

Cov(xi,fj)=Cov(k=1maikfk+εi,fj)=aijCov(fj,fj)=aij

那么可以看到, aij xi fj 之间的协方差函数。

经过上面的计算,我们容易得到:

V(xi)=a2i1+a2i2++a21m+V(εi)

h2i=mj=1a2ij ,那么上式可转化为:

(V(xi)=)σii=h2i+σ2i,i=1,2,,p

这样就将 xi 的方差进行了一个分解,一部分由公共因子解释,即 h2i ,称为共性方差;另一部分由特殊因子解释,即 σ2i ,称为特殊方差


至此,因子分析的基础模型就介绍完了,下面剩下的就是如何去进行参数的估计,这一般有三种方法:主成分法、主因子法以及极大似然法。下一篇,我们就来详细说说因子分析的参数估计问题。


转自:http://jackycode.github.io/blog/2014/05/14/factor-analysis1/

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值