因子分析原理及实现

置顶菜菜编程

已于 2022-05-09 20:07:51 修改

阅读量3.4k

点赞数 5

文章标签： python 机器学习

于 2020-09-17 15:59:29 首次发布

本文链接：https://blog.csdn.net/qq_45153782/article/details/108645834

版权

因子分析原理及实现

因子分析模型
- Python程序实现

因子分析模型

主成分分析在降维中主要是对原始变量进行线性组合，如 $\textbf Y =\textbf {AX}，X\in \mathbf R^{n\times p}$ 首先对原始数据进行标准化后取协方差矩阵所得的m个(或者说成m维数)较大的特征值 $\lambda_i$ ,且满足 $\frac{\sum\limits_i^m \lambda_i}{p} > 80\%$ (通常意义下)，则可以放心的将p维的数据降维成m维的，这在后续数据的处理中可以减少计算量及方便可视化。但主成分只涉及一般的变量变换，并且对降维后的数据进行解释较为困难。

正交因子模型

设数据中的p个变量可以归功于m个因素(或m件事被分为有p个人做)
$x_i = u_i+a_{i1}f_1+a_{i2} f_2 +\cdots+a_{im}f_m+\varepsilon_i$
采用矩阵的形式表示， $\mathbf x=(x_1,\cdots,x_p)^T$ ，公共因子 $\mathbf f=(f_1,\cdots,f_m)^T$ ,特殊因子 $\mathbf \varepsilon=(\varepsilon_1,\cdots,\varepsilon_p)^T$ ;在处理前对数据进行标准化后变量均值 $u_i =0 \quad \forall i=1,2,\cdots ,p$ , $A=(a_{ij})$ 称为因子载荷矩阵。故可以表示为
$\mathbf x= A \mathbf f+\mathbf \varepsilon$
下面我们作几个假设，并且可以说是显然的。

公共因子 $f$ 与特殊因子 $\varepsilon$ 互不相关(否则 $\varepsilon$ 是可以被公共因子所解释)。
公共因子之间相互无关
不失一般性可以假设：
$E(f)=0,\quad E(\varepsilon)=0,\quad \text{及} Var(f_i)=1$

两边同时求方差可以得 $\Sigma = AA^T+D$ ，其中D=Var( $\varepsilon$ )是对角阵.

因子载荷矩阵的性质

每一个元素 $a_{ij}$ 表示 $x_i$ 与 $f_i$ 之间的相关系数
Proof
$Cov(x,f)=Cov(Af+\varepsilon)=AVar(f)+Cov(\varepsilon,f)=A\\ \rho(x_i,f_j)=\frac{Cov(x_i,f_j)}{\sqrt{Var(x_i)Var(f_j)}}=a_{ij}$
A 的行元素的平方和表现为公共因子对 $x_i$ 的影响
Proof
$Var(x_i)=a_{i1}^2Var(f_1)+\cdots + a_{i,m}^2Var(f_m)+V(\varepsilon)\\ =\sum_{j=1}^m a_{ij}^2 + \sigma_i^2\\ =h_i^2 +\sigma_i^2\\ =1$
A的列元素平方和表现为公共因子 $f_j$ 对 $x_1,\cdots,x_p$ 的影响，也是对比公共因子重要性的一个标准.
A的元素平方和为 $f_1,\cdots,f_m$ 对总方差的累计贡献

迭代求解(主因子法)

初始化特殊方差 $\sigma_i^2$ ,计算 $\Sigma -D$ 的特征值 $\lambda_1,\cdots,\lambda_m$ 和线性无关的特征向量 $t_1,\cdots,t_m$ ，则前m个较大的组成A的主因子分解
$\hat{A}=(\sqrt{\lambda_1}t_1,\cdots,\sqrt{\lambda_m}t_m)$
再计算特殊因子方差 $\sigma_i^2 = 1- h_i^2$ ,代入上式迭代知道所求主因子稳定即可.

因子旋转

当主因子仍不好解释时采用，正交因子旋转是对公共因子作用一个正交旋转变换， $f^*=T^Tf$ ,载荷矩阵相应的变为 $A^* =AT$ 。可以发现正交旋变换后结构不变。

Python程序实现

以一个简单的例子展现python中factor_analyzer库中的因子分析

import pandas as pd
import numpy as np
from pandas import DataFrame,Series
from factor_analyzer import FactorAnalyzer

datafile = u'f:\\Factor\data.xls'
data = pd.read_excel(datafile)
data = data.fillna(0)#用0填充空值
 
fa = FactorAnalyzer()
fa.analyze(data, 5, rotation=None)#固定公共因子个数为5个
print("公因子方差:\n", fa.get_communalities())#公因子方差
print("\n成分矩阵:\n", fa.loadings)#成分矩阵
var = fa.get_factor_variance()#给出贡献率
print("\n解释的总方差（即贡献率）:\n", var)
 
fa_score = fa.get_scores(data)#因子得分
fa_score.head()
 
#将各因子乘上他们的贡献率除以总的贡献率,得到因子得分中间值
a = (fa.get_scores(data)*var.values[1])/var.values[-1][-1]
 
#将各因子得分中间值相加，得到综合得分
a['score'] = a.apply(lambda x: x.sum(), axis=1)

菜菜编程

关注

5
点赞
踩
18

收藏

觉得还不错? 一键收藏
1
评论
因子分析原理及实现

因子分析原理及实现因子分析模型正交因子模型因子载荷矩阵的性质迭代求解(主因子法)因子旋转Python程序实现因子分析模型主成分分析在降维中主要是对原始变量进行线性组合，如Y=AX，X∈Rn×p\textbf Y =\textbf {AX}，X\in \mathbf R^{n\times p}Y=AX，X∈Rn×p首先对原始数据进行标准化后取协方差矩阵所得的m个(或者说成m维数)较大的特征值λi\lambda_iλi,且满足∑imλip>80%\frac{\sum\limits_i^m \lamb
复制链接

扫一扫