1.1概念
因子分析法由斯皮尔曼在1904年首次提出,其在某种程度上可以被看成是主成分分析的推广和拓展。
因子分析法通过研究变量间的相关系数矩阵,把变量间错综复杂的关系归结成少数几个综合因子,由于归结出的因子个数少于原始变量的个数,但是他们又包含原始变量的信息,所以这一分析过程也称为降维。
因子往往比主成分更容易解释,所以因子分析比主成分分析更容易成功,从而有广泛的应用。
因子分析有两个核心问题:一是如何构造因子变量,二是如何解释因子变量
1.2应用背景
因子分析用于处理高斯数据,主要有两种情形
(1)假设m个样本,样本的维数为n,如果n>>m,此时非常困难拟合出高斯模型,因为自变量的维数远远超过自变量的个数,此时解有无数种,对于某一实际数据集合,往往样本对应的概率分布在客观上都是唯一的,我们无法用典型的概率分布准确表示出来。
(2)m个样本的维度都较低,用最大似然估计法去估计期望和方差,协方差矩阵是奇异的,即协方差矩阵不可逆,这在计算高斯分布是不可缺失的,除非m比n大一定较合适的值,否则对方差和均值的最大似然估计将会很难找到正确的值。
1.3因子分析的基本步骤
思路步骤
1.确定原有若干变量是否适合因子分析;(变量之间是否有很强的相关性)