主成分分析和因子分析的介绍、区别和联系

机器学习/统计 专栏收录该内容
35 篇文章 2 订阅

本文介绍一下主成分分析、因子分析,进而介绍它们之间的区别和联系。
两个方法的推导我也还有一些没有完全理解,因此中间有些理解可能有误,请大家批评指正

主成分分析

主成分分析:将多个有一定相关性的指标进行线性组合,以最少的维度解释原数据中尽可能多的信息为目标进行降维,降维后的各变量间彼此线性无关。
从其介绍中我们可以知道,主成分分析实际上是将相关性很强的变量通过一定的线性组合合并成一个综合变量,达到降维的效果,因此对于主成分分析只对那些变量间相关性强的变量才能有效降维。

  • 推导角度一:
    原来样本有p个变量x1···xp,现首先期望通过一个线性组合在这里插入图片描述使得相应的方差最大,接下来,类似的再通过一个线性组合找到第二个新变量在这里插入图片描述,使其在原样本信息中除被第一维度y1解释掉的部分,剩余部分信息的方差最大,依次类推下去,直到能够解释足够多的原样本空间信息(一般累计方差占80%以上),舍弃剩余的一些信息,以达到降维的效果。
    详细的推导见下面两张图片(划得有点乱了,实在抱歉啦)
    在这里插入图片描述
    图1

在这里插入图片描述
图2

  • 推导角度二:
    对于正交空间的样本点,寻找一个超平面,使得
    • 最近重构性:样本点到这个超平面的距离足够近;
    • 最大可分性:样本点在这个超平面上的投影能尽可能分开;
      周志华老师的书中表明这两种方法得到的是公式是等价的。
      在这里插入图片描述
      图3
      在这里插入图片描述
      图4
      我觉得周老师书中的最近重构性也可以理解为丢失掉的信息尽可能少,因为得到新的正交坐标系的基向量{w1,w2,w3````xd},然后丢弃掉一些坐标维度后,将源空间的样本点投影到新空间得到新空间样本点Zi,然后基于Zi重构xi,最后计算两者的距离,使其距离和最小,实际上就是通过距离来度量损失掉的信息,令丢失掉的信息最少,即距离最大,得到新的坐标维度。

因子分析

————————————————————————————————————————
首先,先介绍下因子分析的整个思路:
因子分析实际上是提取出反应原变量的一些共性因子,同时希望尽可能少的损失样本信息。
其推导的思路是这样的:1、建立一个模型:X=AF+e;2、希望求出A,于是对模型取方差,得在这里插入图片描述,若没有特殊因子项,然后使用样本的协方差阵去估计X的协方差,进而就可以求出A了;3、但是实际上我们希望得到少数几个能反应共性变异的因子,因此舍弃特征根小的那几个,即尽可能的少损失一些信息,并以此达到降维的效果,实际上损失的这一部分也就是特殊因子了。
—————————————————————————————————————————
接下来详细介绍这个过程:

  1. 因子分解

因子分析概括来说就是要得到一些公共因子,利用这些因子来解释原来的样本空间数据,即将X进行分解,X=AF,即在这里插入图片描述
.目标也是尽可能保留x中的信息。

  1. 因子旋转

在完成分解,得到公共因子后,如果各个公共因子的实际意义不明显的话,一般还需要再进行坐标旋转,坐标旋转就是不改变因子所携带的各变量的信息量,但是改变各个因子所携带的信息量,使得各个因子的实际意义明显。
比如最常见的正交旋转(Varimax),最大方差正交旋转法,使得因子载荷的方差尽可能大,即信息分布尽可能不均匀,也就是信息要集中分布于几个不同的因子上。

  1. 因子得分计算
    得到意义明确的公共因子之后,由于我们之前实际上是得到了因子载荷矩阵A,即得到了下述方程组在这里插入图片描述,但是我们会发现,方程数量p多余我们要求的值F的数量,这样一来我们需要用一些手段来得到近似F,比如回归法等等,来计算出因子得分,也就是各个样本各个因子的实际值。
    详细推导见下述,也画的有点多了,见谅
    因子分解的推导
    在这里插入图片描述
    图5
    在这里插入图片描述
    图6
    在这里插入图片描述
    图7
    因子旋转的具体过程
    在这里插入图片描述
    图8
    在这里插入图片描述
    图9
    因子得分的计算
    在这里插入图片描述
    图10
    ——————————————————————————————————————
    总结一下主成分分析的步骤和因子分析的步骤:
    主成分分析分析过程:

    1.将原始数据标准化,以消除变量间在数量级和量纲上的不同。
    2. 求标准化数据的相关矩阵。(标准化数据的协方差矩阵就是原数据的相关系数矩阵)
    3. 求相关矩阵的特征值和特征向量。
    4. 计算方差贡献率与累计方差贡献率:每个主成分的贡献率代表了原数据总信息量的百分比。
    5. 确定主成分:设C1,C2,C3…Cp为p个主成分,其中前m个主成分的的总信息量(方差贡献度)不低于80%时,课提取前m个主成分来反映原评价对象。
    6. 用原指标的线性组合来计算各主成分得分:以各主成分对原指标的相关系数为权,将各个主成分表示为原指标的线性组合,而主成分的经济意义则由权数较大的指标的综合意义来确定(一般主成分可以不做解释,这是因子分析擅长的)
    7. 综合得分:
    在这里插入图片描述
    8. 得分排序:利用总得分得到得分名次

因子分分析分析过程:

  1. 将原始数据标准化,以消除变量间在数量级和量纲上的不同。
  2. 求标准化数据的相关矩阵。(标准化数据的协方差矩阵就是原数据的相关系数矩阵)
  3. 求相关矩阵的特征值和特征向量。
  4. 计算方差贡献率与累计方差贡献率。
  5. 确定因子:设F1,F2,F3…Fp为p个主成分,其中前m个因子的的总信息量(方差贡献度)不低于80%时,课提取前m个因子来反映原评价对象。
  6. 因子旋转:若所获得的m个因子无法确定或其实际意义不是很明显,这时需将因子进行旋转以获得较为明显的实际意义。
  7. 用原指标的线性组合来计算各因子得分:采用回归估计法,Bartlett估计法计算因子得分
  8. 综合得分:以各因子的方差贡献率为权,由各因子的线性组合得到综合评价指标函数
    在这里插入图片描述
  9. 得分排序:利用总得分得到得分名次
    ———————————————————————————————————————
    说一下我的理解:主成分分析和因子分析的区别和联系(可能理解有误,希望大家能指正)
    1、主成分的目的是将原来的几个相联系的变量通过线性组合压缩成少数的几个综合变量,加以考察,但是这几个综合变量往往不具有明显的现实意义,而因子分析则是期望将一些相互联系的变量压缩,也是通过线性组合得到一些公共因子,这些公共因子往往有明显的现实意义。一个在于将原来的变量综合(Y=AX),一个在于将变量分解,提取公共因素(X=AF)。
    2、主成分分析的目标是以尽可能少的综合变量去蕴含原来数据中尽可能多的信息,而因子分析的目标是尽可能包含原数据尽可能多的信息量,没有要求要以尽可能少的因子。也就是说主成分分析的关键在于“变异数”的问题,希望综合指标尽可能少,而因子分析在于共变异数的问题,也就是希望变量能够提取出原数据中共有信息(共有方差/变异)。
    对于其中说的共有方差/变异有些难理解,我是这样来理解的。
    在这里插入图片描述
    因子分解如上图所示,这个等式X=AF+e可以理解成一个回归式,因变量是X,自变量是F,e是误差(随机变量),所以实际上该因子分解时在做一个提取影响X的自变量(公共因子)的过程,也就是提取共有方差。
    3、当因子分析的特殊因子方差贡献率为0时,主成分分析和因子分析(使用主成分法求公共因子)是完全等价的。两者的系数矩阵之间只是相差一个系数,这个系数是各个特征根的二次平方根。当主成分分析取标准化系数时,两个系数矩阵就完全一致了。
    在这里插入图片描述
    ——————————————————————————————————
    验证性因子分析
    上面所说的因子分析也就是常用的探索性因子分析,而实际因子分析还有一种验证性因子分析,验证性因子分析正如其名字,是用来验证一种结构的,举一个例子:根据理论我们可以构建出一个问卷,问卷中有很多题目,其中1-3题共同反映因子A,4-6题共同反映因子B,然后便可以使用验证性因子分析(CFA),去验证这种关系是否存在,以及问卷设计的信效度是否很好。具体的介绍可以我的这篇博文

————————————————————————————————————
参考文献:
王斌会.《多元统计分析及R语言建模》
周志华.《机器学习》
张文彤,董伟.《SPSS统计分析高级教程》

©️2021 CSDN 皮肤主题: 博客之星2020 设计师:CY__ 返回首页
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、C币套餐、付费专栏及课程。

余额充值