统计学习-初探因子分析方法
初探因子分析
在之前的文章里,我们聊了主成分分析方法,这种方法广泛应用于各种实际统计问题,可以被用来进行降维处理,减少了变量数目,并且新变量之间没有相关性。今天我们来了解一下因子分析,因子分析从本质上来说就是一种寻找多个变量之间的共同因子,如果主成分分析方法是一种变量合成的方法,那么因子分析方法就是一种提取共性变量的方法。
其实因子分析这种方法最早是从教育统计来的,当时研究者发现某一科成绩好的学生,在另一科的成绩也不错。从现在的理解来看,数学成绩好的学生,物理成绩很有可能也不错;而英语成绩不错的学生,语文成绩可能也很棒。从深层次的角度上来说,数学成绩和物理成绩可能是逻辑能力和计算能力的体现,而语文成绩和英语成绩可能是阅读能力和写作能力的体现。因此,如果研究智力因素对成绩的影响,那么可以对各科成绩变量进行因子分解,得到一些共性因子后再对这个问题进行研究,可以得到更好的结论和更强的可解释性。
由于因子分析方法有很多种,比如最小平方法,最大似然解法,重心法等。从另一种角度来说,因子分析可以分为对变量做出因子分析和对样本做出因子分析,本文将介绍一些对变量做因子分析的原理和思想,方便初学者可以理解因子分析。
假设在问题中,自变量X和因变量Y之间存在线性关系,而更进一步来看,自变量X也存在深层的共性因子F,每一个自变量X都和因子F有线性关系,公式如下:
观察上面公式发现