图片来源于网址
“文章原创,转载请注明出处”
前一篇介绍的主成分分析(PCA),是一种降维技术;这一篇介绍的因子分析也是一种降维的方法,不仅如此,还可以将因子分析看作是主成分分析的一种推广和发展。与之主成分分析相比较,因子分析更为灵活,对变量降维后的解释能够更加清楚。
但因子分析和主成分分析有非常多的不同点。
- 主成分分析不能作为一个模型来描述,主成分是观测变量的线性组合;
- 因子分析需要构造因子模型,观测的原始变量是因子的线性组合。
初窥
在介绍因子模型之前,可以先看看这个因子分析到底是要干什么,以及是怎么干的!
在二维空间中,主成分分析,它想做的是寻找一组新的变量 y1,y2 ,用它去替代原来的变量 x1,x2 ,并且满足 y1 和 y2 这两个变量都是 x1,x2 两个变量的线性组合!即:
而在因子模型中,我们需要做的跟此不同。我们需要找到一组潜在变量(不可观测),用这组潜在变量的线性组合去表示原始变量 x1,x2 。这里假设有1个潜在变量 f1 ,那么因子模型可以描述成:
其中, f1 就是因子,称为公共因子; aij 称之为变量 xi 在因子 fj 上的载荷; μi 是 xi 的均值; εi 为特殊因子,即不能被公共因子解释的部分。
正交因子模型
首先看看最基础的因子模型,就是正交假设下的因子模型:
在给出假定之前,我们先将上面式子转换成矩阵形式:
其中, x=(x1,x2,…,xp)′ , μ=(μ1,μ2,…,μp)′ 为均值向量, ε=(ε1,ε2,…,εp)′ 为特殊因子向量, f=(f1,f2,…,fp)′ 为公共因子向量, A=(aij):p×m 为载荷矩阵。那么我们就可以给出如下的正交假设:
在这样的假定下,我们首先来计算一下,原始变量 x 的协方差:
又: Cov(Af+ε,Af+ε)=AV(f)A′+ACov(f,ε)+Cov(ε,f)A′+V(ε)
由于 V(f)=I,Cov(f,ε)=Cov(ε,f)=0 ,所以:
显然,我们要处理正交因子模型,最重要的就是求解 A,D 的估计值,那么这里就给出了这两个量与原始变量的协方差矩阵间的关系。
那么我们开始所说的,因子分析也是一种降维手段体现在哪里呢?这个就体现在,公共因子的数量上,当公共因子的数量少于原始变量的数量时,使用因子去解释原始变量就达到了一种降维的目的!
载荷矩阵
显然,载荷矩阵 A 是我们关心的一个重点。首先,我们想弄明白 A 中的元素 aij 是否有什么具体的含义:
那么可以看到, aij 是 xi 和 fj 之间的协方差函数。
经过上面的计算,我们容易得到:
记 h2i=∑mj=1a2ij ,那么上式可转化为:
这样就将 xi 的方差进行了一个分解,一部分由公共因子解释,即 h2i ,称为共性方差;另一部分由特殊因子解释,即 σ2i ,称为特殊方差。
至此,因子分析的基础模型就介绍完了,下面剩下的就是如何去进行参数的估计,这一般有三种方法:主成分法、主因子法以及极大似然法。下一篇,我们就来详细说说因子分析的参数估计问题。
转自:http://jackycode.github.io/blog/2014/05/14/factor-analysis1/