主成分分析与因子分析-原理及python实现

最新推荐文章于 2024-03-18 22:17:32 发布

Loiser1

最新推荐文章于 2024-03-18 22:17:32 发布

阅读量1.5k

点赞数

分类专栏：保研复习文章标签：算法数据分析机器学习 python

本文链接：https://blog.csdn.net/loiser1/article/details/115472585

版权

保研复习专栏收录该内容

2 篇文章 0 订阅

订阅专栏

下面两种算法一般都需标准化消除量纲影响

主成分分析(PCA)

目的

数据降维，将n维数据降为n’维数据。原数据 $X:n\times m,sample\,point:(x_1,...,x_n)^T,base:\lbrace w_1,...,w_n\rbrace$

转换到n‘维空间中， $x^{(i)}\rightarrow z^{(i)}=(z_i^{(i)},...,z_{n'}^{(i)})^T$ 对应n’维空间标准正交基: $w'=\lbrace \hat w'_1,...,\hat w'_{n'}\rbrace=W:n\times n'$

有: $W^Tx^{(i)}=z^{(i)}$ ,n’维空间中数据还原到n维空间中有 $Wz^{(i)}=\bar x^{(i)}$

caution: $W^TW=E,WW^T\neq E,W^TX=Z$

优化函数

使得降维后的数据与原数据距离和最小(尽可能维持原来位置，保持尽可能多的数据)
$\sum_{i=1}^m ||\bar x^{(i)}-x^{(i)}||_2^2\\ =\sum_{i=1}^m ||Wz^{(i)}-x^{(i)}||_2^2\\ =\sum_{i=1}^m (Wz^{(i)})^T(Wz^{(i)})-2\sum_{i=1}^m (Wz^{(i)})^Tx^{(i)}+\sum_{i=1}^m x^{(i)T}x^{(i)}\\ =-\sum_{i=1}^m z^{(i)T}z^{(i)}+\sum_{i=1}^,x^{(i)T}x^{(i)} =-tr(X^TWW^TX+X^TX)\\ min \sum_{i=1}^m ||\bar x^{(i)}-x^{(i)}||_2^2 \Leftrightarrow argmax\,tr(X^TWW^TX),s.t. W^TW=E$

用Lagrange函数求最优解:

因为: $tr(X^TWW^TX)=tr(W^TXX^TW)$

$J=tr(W^TXX^TW-\Lambda W^TW)=tr(W^T(XX^T-\Lambda I)W)$

$\frac{\partial J}{\partial W}=2(XX^T-\Lambda I)W=0 \Rightarrow XX^TW=\Lambda I W=\Lambda' W$ 微分具体过程见Appendix

$\Lambda'$ 是对角矩阵，对角线值为 $XX^T$ 的特征值

$\sum_{i=1}^m ||\bar x^{(i)}-x^{(i)}||_2^2=-tr(\Lambda W^TW)-tr(X^TX)$

从而要使得上式最小则取 $XX^T$ 最大的n’个特征值作为 $\Lambda_{ii}$ ，对应n’特征向量 $(\hat x_1,...\hat x_{n'})$ 即为W

计算方式

将X每个样本关于每个特征维度中心化得到 $\hat X$ ，从而 $\hat X\hat X^T=cov(X,X)$
计算协方差矩阵特征值选择最大的n’个，对应特征向量组成W
X转化： $Z=W^TX$

Appendix

对矩阵的迹求导计算方法可以先拆开成求和形式再求

在上述优化过程中求 $W^T(XX^T-\Lambda I)W=W^TAW=P$

$tr(P)=\sum_{p=1}^{n'}\sum_{j=1}^n\sum_{i=1}^n w_{jp}a_{ji}w_{ip}$

$\frac{\partial tr(P)}{\partial w_{jp}}=\sum_i a_{ji}w_{ip}=[AW]_{jp}$

$\frac{\partial tr(P)}{\partial w_{ip}}=\sum_j w_{jp}a_{ji}=[A^T W]_{ip}$

$\frac{\partial tr(P)}{\partial W}=AW+A^TW=2AW$

因子分析(FA)

目的

找到影响现有几个特征的影响因子，方便进行聚类。

以计量经济学对中国家庭金融调查CHFS中金融知识相关问题(是否了解利率，是否正确计算利率，对投资风险是否了解，是否了解投资相关概念)，四个问题的回答构成样本 $x_1,x_2,x_3,x_4)$ ，其中12，34问题有极大相关性，则可以通过因子分析得到两个变量 $F_1,F_2)$ 分布表示受访者对利率和投资的认识程度。因子分析将 $x_1,...,x_4$ 转换为 $F_1,F_2$ ，并得到相关信息。

过程

sample point: $x_1,...,x_n)$
$\begin{cases} x_1=a_{11}F_1+...+a_{1n'}F_{n'}+\epsilon_1\\ \qquad\qquad ...\\ x_n=a_{n1}F_1+...+a_{nn'}F_{n'}+\epsilon_n \end{cases} \\ x=AF+\Epsilon$

检验是否适合因子分析

KMO检验

$KMO_j=\frac{\sum_{i\neq j}r_{ij}^2}{\sum_{i\neq j }r_{ij}^2+\sum_{i\neq j}u}$

$R=[r_{ij}]:correlation \,matrix$

$U=[u_{ij}]:partial\,covariance\,matrix$

$KMO=\frac{\sum\sum_{i\neq j}r_{ij}^2}{\sum\sum_{i\neq j }r_{ij}^2+\sum\sum_{i\neq j}u}$

其中对应偏相关系数的计算参考

u越大表示该变量在其它方向投影越分散，从而对应KMO值越小，一般总体KMO值大于0.7较好，计量中使用因子分析KMO较小的值为避免影响总体结果建议删去
bartlett球形检验

零假设为相关系数矩阵是单位矩阵，对应检验统计量(非常复杂)[参考](Bartlett’s test - Wikipedia)

因子的选择

因子分析中有很多确定因子变量的方法，如基于主成分模型的主成分分析和基于因子分析模型的主轴因子法、极大似然法、最小二乘法等，前者应用最为广泛

主成分分析中一般取 $XX^T$ 前n’个最大的特征向量；在计量中，例如stata软件中默认取特征值大于1对应的因子
在中心化之后 $XX^T$ 代表协方差,从而特征向量对应特征值即为方差贡献率，一般也取累计方差贡献率超过85%的前几个特征向量作为因子

因子旋转

特征向量表示原来n个变量在特征向量对应新因子中的构成，如果对于新因子F1，例子中是否了解利率，是否正确计算利率两个变量占比最大，我们可以说F1可以对利率问题回答情况做出解释。
在上例中，如果F1,F2中四个问题占比没有明显差异，则为方便解释，使用旋转矩阵进行正交旋转，将F1,F2旋转为F1’,F2’使得对不同问题的解释性更突出。

因子旋转矩阵对应方差最大旋转矩阵，对应取值R为:
$R_{Varmax}=argmax_{R}(\sum_{j=1}^{n'}\sum_{i=1}^n (W R)_{ij}^4-\frac{\gamma}{n}\sum_{j=1}^{n'}(\sum_{i=1}^n(W R)^2_{ij})^2$
即使得任何一个因子只在少数变量上有高载荷,而在其它变量上的载荷几乎为0。

因子得分

在类似主成分分析的因子选取后，得到新的n’个因子 $z^{(i)}=W^Tx^{(i)}$

通过n’个新因子的方差贡献率 $\lambda$ 得到综合得分，即:

$score^i=\frac{\sum_{j=1}^{n'}\lambda_j z_j}{\sum_{j=1}^{n'}\lambda_j}$

如果进行因子旋转则按照旋转后对应的 $\bar W=W\times R,\qquad R:n'\times n'$ 进行计算

程序

因子分析 stata程序

factor Q1_1 Q1_2 Q2_1 Q2_2 Q3_1 Q3_2, pcf
estat kmo
rotate
predict f1 f2 f3   #按照因子选择数
gen knowledge=(0.3083*f1+f2*0.2428+f3*0.1361)/(0.3083+0.2428+0.1361)#按照输出的因子载荷

主成分分析 python程序

参考

import numpy as np
from sklearn.decomposition import PCA
X = np.array([[-1, -1], [-2, -1], [-3, -2], [1, 1], [2, 1], [3, 2]])
pca = PCA(n_components=2)
newX = pca.fit_transform(X)     #=pca.fit(X) pca.transform(X)
invX = pca.inverse_transform(X)  #还原为Xbar
print(pca.explained_variance_ratio_)

因子分析 python程序

sklearn没有因子旋转相关函数，需要调用factor_analyzer这个包[具体API看文档](factor_analyzer package — factor_analyzer 0.3.1 documentation (factor-analyzer.readthedocs.io))

import factor_analyzer 
f=factor_analyzer.FactorAnalyzer
data=[[1,2,3,4],[23,33,44,55],[3,4,5,6],[12,44,56,77]]
f=f(rotation='varimax', n_factors=2, method='principal')
f.fit(data)

FactorAnalyzer(bounds=(0.005, 1), impute='median', is_corr_matrix=False,
               method='principal', n_factors=2, rotation='varimax',
               rotation_kwargs={}, use_smc=True)

 f.loadings_

array([[0.44773561, 0.89416599],
       [0.91066904, 0.41305279],
       [0.89686514, 0.44229149],
       [0.92472224, 0.38061092]])

f.get_communalities()#公因子方差:累计贡献率

array([0.99999999, 0.99993071, 0.99998885, 0.9999759 ])

Loiser1

关注

0
点赞
踩
11

收藏

觉得还不错? 一键收藏
0
评论
主成分分析与因子分析-原理及python实现

下面两种算法一般都需标准化消除量纲影响主成分分析(PCA)目的数据降维，将n维数据降为n’维数据。原数据X:n×m,sample point:(x1,...,xn)T,base:{w1,...,wn}X:n\times m,sample\,point:(x_1,...,x_n)^T,base:\lbrace w_1,...,w_n\rbraceX:n×m,samplepoint:(x1,...,xn)T,base:{w1,...,wn}转换到n‘维空间中，x(i)→z(i)=(zi(i),.
复制链接

扫一扫