因子分析与主成分分析的思路类似,都是因为变量之间存在相关关系,进行降维处理。主成分分析会得到与原变量相同的成分个数,因子分析则是在一开始规定因子个数。因子分析应用常见广泛。
因子分析与回归分析不同,因子分析中的因子是一个比较抽象的概念,而回归因子有非常明确的实际意义;主成分分析分析与因子分析也有不同,主成分分析仅仅是变量变换,而因子分析需要构造因子模型。
主成分分析:原始变量的线性组合表示新的综合变量,即主成分;因子分析:潜在的假想变量和随机影响变量的线性组合表示原始变量。
概念:通过对变量之间关系的研究,找出能综合原来变量的少数因子,使得少数因子能顾反应原始变量的绝大部分信息。
![v2-eb56d4dd89b7988bfdab7fded33a160e_b.jpg](http://img-02.proxy.5ce.com/view/image?&type=2&guid=4ef529e9-1b2f-eb11-8da9-e4434bdf6706&url=https://pic3.zhimg.com/v2-eb56d4dd89b7988bfdab7fded33a160e_b.jpg)
因子分析步骤:
1.数据检验步骤:不是所有的数据适合做因子分析,就是看数据之中自变量相关性是否存在。第一种方法计算相关系数矩阵:如果矩阵中大部分的相关系数小于0.3, 那么这个数据就不适合做因子分析。第二种方法Bartlett球度检验:以计算相关系数矩阵为基础。如果相关系数是单位阵的话,各个变量是独立的,那么不适合做因子分析。第三种方法是KMO检验(Kaiser-Meyer-Olkin检验),用于检验变量中的偏相关性,计算公式是
![v2-214a19bee57c5b2b2ed621fec9dbf704_b.png](http://img-02.proxy.5ce.com/view/image?&type=2&guid=4ef529e9-1b2f-eb11-8da9-e4434bdf6706&url=https://pic1.zhimg.com/v2-214a19bee57c5b2b2ed621fec9dbf704_b.png)
R = [rij] is thecorrelation matrixand.是变量X1与其他变量Xj的简单相关系数。
U = [uij] is the partial covariance matrix.变量与其他变量在控制了剩余变量条件下的偏相关系数。
KMO的取值在0和1之间,接近1说明变量之间的偏相关系数越强,因子分析的结果就越好。一般来说,KMO在0.7以上时候使用因子分析方法,0.5以下就不使用。
一般要求样本的个数至少是变量的五倍以上,样本量最好大于100。
2. 因子提取:
有主成分法/不加权最小平方法/加权最小平方法/最大似然/主轴因子法等方法。
因子数量的确定需要考虑两个因素:方差解释度大于80%,特征值大于1。
3. 因子命名和解释:
因子是进行接下来分析的变量,为了不让因子抽象,给每一个因子一个名字。命名是一个较为主观的事情。为了更好的给因子命名,因子旋转分为正交旋转和斜交旋转:帮助因子更方便命名。
4. 计算因子得分:
每个因子在每个样本上的具体取值。
f1=b11x1+b12x2+...+b1pxp
f2=b21x1+b22x2+...+b2pxp
...
fk=bk1x1+bk2x2+...+bkpxp
数学模型:
![v2-8eecd80a5bc54f44ef8c66b13ab0a1e7_b.jpg](http://img-01.proxy.5ce.com/view/image?&type=2&guid=4ef529e9-1b2f-eb11-8da9-e4434bdf6706&url=https://pic4.zhimg.com/v2-8eecd80a5bc54f44ef8c66b13ab0a1e7_b.jpg)
建议阅读:
Kaiser-Meyer-Olkin (KMO) Test for Sampling Adequacy - Statistics How Towww.statisticshowto.com![v2-cbe19f057ab67479d16d221aad5ddbda_180x120.jpg](http://img-03.proxy.5ce.com/view/image?&type=2&guid=4ef529e9-1b2f-eb11-8da9-e4434bdf6706&url=https://pic3.zhimg.com/v2-cbe19f057ab67479d16d221aad5ddbda_180x120.jpg)