第三十六课
因子分析
因子分析(Factor
Analysis)是主成分分析的推广,它也是从研究相关矩阵内部的依赖关系出发,把一些具有错综复杂关系的变量归结为少数几个综合因子的一种多变量统计分析方法。具体地说,就是要找出某个问题中可直接测量的、具有一定相关性的诸指标,如何受少数几个在专业中有意义,又不可直接测量到,且相对独立的因子支配的规律,从而可用诸指标的测定来间接确定诸因子的状态。
一、
何为因子分析
因子分析的目的是用有限个不可观察的潜在变量来解释原变量间的相关性或协方差关系。在这里我们把不可观察的潜在变量称为公共因子(common
factor)。在研究样品时,每个样品需要检测很多指标,假设测得 个指标,但是这 个指标可能受到 ( <
)个共同因素的影响,再加上其他对这些指标有影响的因素。写成数学的形式就是:
(36.1)
利用矩阵记号有:
(36.2)
各个指标变量都受到 的影响,因此 称为公共因子, 称为因子载荷矩阵, 是单变量 所特有的因子,称为 的特殊因子(unique
factor)。设 , ,…, 分别是均值为0,方差为1的随机变量,即 ;特殊因子 , ,…, 分别是均值为0,方差为 , ,…,
的随机变量,即 ;各特殊因子之间及特殊因子与公共因子之间都是相互独立的,即 及 。 是第 个变量在第
个公共因子上的负荷,从投影的角度看, 就是 在坐标轴 上的投影。
主成分分析的目标是降维,而因子分析的目标是找出公共因素及特有的因素,即公共因子与特殊因子。在主成分分析中,残差通常是彼此相关的。在公因子分析中,特殊因子起到残差的作用,但被定义为彼此不相关且和公因子也不相关。而且每个公因子假定至少对两个变量有贡献,否则它将是一个特殊因子。在开始提取公因子时,为了简便还假定公因子彼此不相关且具有单位方差。在这种情况下,向量
的协方差矩阵Σ可以表示为:
(36.3)
这里D=diag( ),diag表示对角矩阵。如果假定已将 标准化,也就是说 的每一个分量
的均值都为0,方差都是1,即 ,那么:
(36.4)
记 ,则有:
(36.5)
反映了公共因子f对 的影响,称为公共因子f对 的“贡献”。 实际反映了变量
对公共因子f的依赖程度。
另一方面,还可以考虑指定的一个公共因子 对各个变量 的影响。实际上, 对各个变量 的影响可由 中第
列的元素来描述,那么:
(36.6)
称为公共因子 对 的“贡献”。显然 越大, 对 的影响就越大, 成为衡量因子重要性的一个尺度。实际上:
(36.7)
那么,矩阵 的统计意义就非常清楚:
l 是 和 的相关系数
l 是 对公共因子 的依赖程度
l 是公共因子 对 的各个分量总的影响
下面我们来看怎样求解因子载荷矩阵 。
二、
因子载荷矩阵的求解
如果已知 协方差矩阵 和 ,可以很容易地求出 。根据式(36.3)有:
(36.8)
记 ,则 是非负定矩阵。若记矩阵 的p个特征值 ≥ ≥…≥
> = … = =
0,且m个非零特征值所对应的特征向量分别为 , ,…, ,则 的谱分解式为:
(36.9)
只要令:
(36.10)
就可以求出因子载荷矩阵 。
但在实际问题中,我们并不知道 、 ,即不知道 ,已知的只是 个样品,每个样品测得 个指标,共有
个数据,样品数据见表36.1。为了建立公因子模型,首先要估计因子载荷 和特殊因子方差
。常用的参数估计方法有以下三种:主成分法、主因子解法和极大似然法。
1.
主成分法
主成分法求因子载荷矩阵 的具体求法如下:首先从资料矩阵出发求出样品的协方差矩阵,记之为 ,其特征值为 ,相应的单位正交特征向量为
,当最后 个特征值较小时,则对 进行谱分解可以近似为:
(36.11)
其中, ≥ ≥…≥ >0是协方差矩阵 相应