连续变量降维-因子分析

最新推荐文章于 2024-06-13 21:16:25 发布

贪心西瓜

最新推荐文章于 2024-06-13 21:16:25 发布

阅读量898

点赞数

分类专栏：统计分析与数据挖掘文章标签：数据分析统计学

本文链接：https://blog.csdn.net/weixin_43217427/article/details/115579360

版权

统计分析与数据挖掘专栏收录该内容

7 篇文章 1 订阅

订阅专栏

一、与主成分分析的关系

（1）主成分分析是将原始变量做线性组合，线性组合值代替原始变量；而因子分析是先将原始变量做分解，再用分解出来的因子与原始变量做线性回归，用回归的预测值代替原始变量，表示成公共因子和特殊因子的线性组合；

（2）主成分分析中不需要专门的假设；而因子分析则需要，主要包括：各个公共因子之间不相关，特殊因子之间不相关，公共因子和特殊因子不相关等；

（3）主成分分析中，给定的协方差矩阵或者相关矩阵的特征根是唯一的，主成分一般是固定的；而因子分析的因子不是固定，可以旋转得到不同的因子；

（4）主成分中，未筛选的主成分数量一定，总数量等于特征个数；因子分析的因子个数需要分析者自定，随因子数量不同为结果不同；

（5）因子分析是主成分分析的推广，但是因子分析更倾向于描述原始变量之间的关系，可以使用旋转技术帮助解释因子。

二、因子分析思路

对于某一具体问题，原始变量可以分解为两部分之和，一部分是少数几个不可预测的公共因子的线性函数，另一部分是与公共因子无关的特殊因子。因子分析可以用来研究变量的相关性，做变量降维，叫做R型因子分析；也可以对样本进行分类处理，叫做Q型因子分析。本文介绍的是R型因子分析。
因子步骤包括：
（1）根据研究问题选取原始变量；
（2）对原始变量进行标准化，并求其相关矩阵，分析变量之间的相关性；
（3）求解初始公共因子和因子载荷矩阵；
（4）因子旋转；
（5）计算因子得分；
（6）根据因子得分值进行进一步分析。

三、因子分析求解

3.1 初始公共因子和因子载荷矩阵求解

此步骤的方法主要有主成分法、主轴因子法、最小二乘法、极大似然法、α因子提取法等，本文主要介绍主成分法。

主成分法确定初始公共因子和因子载荷矩阵，是在进行因子分析前先对数据进行一次主成分分析分析，然后把前几个主成分作为公共因子（初始公共因子是未旋转的）。在主成分分析中，主成分与原始变量之间的关系为
$D=(Y_{1},Y_{2},...,Y_{p})=\begin{cases} Y_{1}=u_{11}X_{1}+u_{12}X_{2}+...+u_{1p}X_{p} \\[2ex] Y_{2}=u_{21}X_{1}+u_{22}X_{2}+...+u_{2p}X_{p} \\[2ex] ......\\[2ex] Y_{p}=u_{p1}X_{1}+u_{p2}X_{2}+...+u_{pp}X_{p} \\[2ex] \end{cases}$
$u_{ij}$ 代表第 $i$ 个主成分（第 $i$ 次线性变换）的第 $j$ 个原始变量 $X_{j}$ 的变换系数，即变量 $X=(X_{1},X_{2},...,X_{p})$ 的相关矩阵的特征根所对应的特征向量的分量。

因特征向量两两正交，可得
$X=(X_{1},X_{2},...,X_{p})=\begin{cases} X_{1}=u_{11}Y_{1}+u_{21}Y_{2}+...+u_{p1}Y_{p} \\[2ex] X_{2}=u_{12}Y_{1}+u_{22}Y_{2}+...+u_{p2}Y_{p} \\[2ex] ......\\[2ex] X_{p}=u_{1p}Y_{1}+u_{2p}Y_{2}+...+u_{pp}Y_{p} \\[2ex] \end{cases}$
对每个等式保留前 $m$ 个因子，省略 $m$ 以后的部分，用 $\varepsilon _{i}$ 代替，则转换为
$X=(X_{1},X_{2},...,X_{p})=\begin{cases} X_{1}=a_{11}F_{1}+a_{12}F_{2}+...+a_{1m}F_{m}+\varepsilon _{1} \\[2ex] X_{2}=a_{21}F_{1}+a_{22}F_{2}+...+a_{2m}F_{m}+\varepsilon _{2} \\[2ex] ......\\[2ex] X_{p}=a_{p1}F_{1}+a_{p2}F_{2}+...+a_{pm}F_{m}+\varepsilon _{p} \\[2ex] \end{cases}$
其中， $F_{1},F_{2},...,F_{m}$ 之间相互独立， $F_{i}=Y_{i}/\sqrt{\lambda _{i}}$ ， $a_{ij}=u_{ji}\sqrt{\lambda _{j}}$ ， $(\lambda _{1}，\lambda _{2}，...，\lambda _{p})$ 和 $(\gamma _{1},\gamma _{2},...,\gamma _{p}$ )分别为 $Y_{1},Y_{2},...,Y_{p})$ 对应的特征根和特征向量， $\gamma _{i}=(u_{i1},u_{i2},...,u_{ip})^T$ 。

所以因子载荷矩阵为
$A=(\gamma _{1}\sqrt{\lambda _{1}}，\gamma _{2}\sqrt{\lambda _{2}},...,\gamma _{m}\sqrt{\lambda _{m}})=\begin{bmatrix} a_{11}& a_{12}& ...&a_{1m} \\ a_{21} & a_{22}& ...& a_{2m}\\ ...& ...& ...& ...\\ a_{p1}& a_{p2}& ...&a_{pm} \end{bmatrix}=\begin{bmatrix} u_{11}\sqrt{\lambda _{1}} & u _{21}\sqrt{\lambda _{2}}& ...&u _{m1}\sqrt{\lambda _{m}} \\ u _{12}\sqrt{\lambda _{1}} & u_{22}\sqrt{\lambda _{2}}& ...& u _{m2}\sqrt{\lambda _{m}}\\ ...& ...& ...& ...\\ u _{1p}\sqrt{\lambda _{1}}& u _{2p}\sqrt{\lambda _{2}}& ...&u_{mp} \sqrt{\lambda _{m}} \end{bmatrix}$
公共因子保留的个数 $m$ 取决于具体问题，用主成分求解时，可以借鉴主成分个数的准则，如所选取的公共因子的信息量的和达到总体信息量的合适比例为止。

3.2 因子旋转

$F_{1},F_{2},...,F_{m}$ 是初始公共因子，因子旋转就是将初始公共因子做线性组合得到新的一组公共因子 ${F_{1}}’,{F_{2}}’,...,{F_{m}}‘$ 。经过旋转的因子载荷能够更清晰地表现因子重要性，使重要的公共因子在线性组合中权重更大，不重要的公共因子权重更小。

旋转方式分为正交旋转和斜交旋转，正交旋转得到的新公共因子依然彼此独立正交，而斜交选择则放弃了因子之间彼此独立这个限制。旋转后新的公共因子
$\begin{cases} {F_{1}}'=d_{11}F_{1}+d_{12}F_{2}+...+d_{1m}F_{m} \\[2ex] {F_{2}}'=d_{21}F_{1}+d_{22}F_{2}+...+d_{2m}F_{m} \\[2ex] ......\\[2ex] {F_{m}}'=d_{m1}F_{1}+d_{m2}F_{2}+...+d_{mm}F_{m} \\[2ex] \end{cases}$
因子旋转系数矩阵求解以后补充。

3.3 因子得分及分析

因子分析求解是将原始特征变量做分解，表示成公共因子和特殊因子的线性组合，得到影响特征 $X=(X_{1},X_{2},...,X_{p})$ 的因素（公共因子 $F_{1},F_{2},...,F_{m}$ ）。

而因子得分是将原始变量做线性组合，用此线性组合表示公共因子，用来解释特征 $X=(X_{1},X_{2},...,X_{p})$ 对因素公共因子 $F_{1},F_{2},...,F_{m}$ ）的影响。

二者是影响与被影响的逻辑。

解决因子得分的方法是线性回归，以公共因子为因变量，原始特征变量为自变量：
$F_{j}=\beta _{j1}X_{1}+\beta _{j2}X_{1}+...+\beta _{jp}X_{1}, j=1, 2, ... ,m$
此处，原始变量和公共因子均为标准化变量，所以模型不存在常数项。

用最小二乘法得到回归系数 $\beta _{ji}$ 估计值，回归系数就是公共因子在每一个原始变量上的得分。根据最小二乘法的思想，也可以直接计算出
$F_{1},F_{2},...,F_{m})=A^TR^{-1}X$
其中， $A$ 为荷载矩阵， $R$ 为原始变量的相关矩阵， $X$ 为原始变量。

求出回归模型后，回归系数为 $F_{j}$ 对每一个 $X_{i}$ 的得分估计，线性组合后得到每一个公共因子的总得分（即 $\widehat{F_{j}}$ ， $F_{j}$ 的预测值），用公共因子的总得分代替原始变量，达到降维的目的。

参考书：《多元统计分析》何晓群

贪心西瓜

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
连续变量降维-因子分析

一、与主成分分析的关系（1）主成分分析是将原始变量做线性组合；而因子分析是将原始变量做分解，表示成公共因子和特殊因子的线性组合；（2）主成分分析中不需要专门的假设；而因子分析则需要，主要包括：各个公共因子之间不相关，特殊因子之间不相关，公共因子和特殊因子不相关等；（3）主成分分析中，给定的协方差矩阵或者相关矩阵的特征根是唯一的，主成分一般是固定的；而因子分析的因子不是固定，可以旋转得到不同的因子；（4）主成分中，未筛选的主成分数量一定，总数量等于特征个数；因子分析的因子个数需要分析者自定
复制链接

扫一扫