版权说明:内容来自互联网及书籍
一、主成分分析PCA
1. 基本思想
主成分分析是一类常用的针对连续变量的降维方法,选取能够最大化解释数据变异的成分,将数据从高维降到低维,同时保证各个维度之间正交。
主成分分析的具体方法是对变量的协方差矩阵或相关系数矩阵求取特征值和特征向量,经证明,对应最大特征值的特征向量,其方向正是协方差矩阵变异最大的方向,依次类推,第二大特征值对应的特征向量,是与第一个特征向量正交且能最大程度解释数据剩余变异的方向,而每个特征值则能够衡量各方向上变异的程度。因此,进行主成分分析时,选取最大的几个特征值对应的特征向量,并将数据映射在这几个特征向量组成的参考系中,达到降维的目的(选择的特征向量数量低于原始数据的维数)。
当分析中所选的变量具有不同的量纲,且差别比较大的情况下,应选择相关系数矩阵进行主成分分析。
主成分分析适用于变量之间具有相关关系,变量在三维空间中呈现椭球形分布。多变量之间有显著的强线性相关,表明主成分分析是有意义的。
2.主成分的计算公式
3.散点图解
4. 主成分分析的步骤
5. 选择主成分个数
主成分分析的目的是简化变量,一遍保留的主成分应该小于原始变量的个数。根据主成分分析的目的,个数选取的方法是有区别的。
具体保留几个主成分,应该遵循两个原则(两个原则同时使用,可只考虑一个):
1. 单个主成分解释的变异不应该小于1(特征根值布小于1)
2. 选取的主成分的累计变异应该达到80% ~ 90%(累计特征根值占总特征根值80%以上)
6. 应用场景
主成分法的应用大致分为三个方面: 1、对数据做综合打分; 2、 降维以便对数据进行描述;3、为聚类或回归等分析提供变量压缩。在应用时要能够判断主成分法的适用性,能够根据需求选取合适的主成分数量。
二、因子分析
1. 基本思想
主成分分析时一般情况下不能对主成分所代表含义进行业务上的解读,因为主成分方向上一般不会恰好某些变量权重大,而另外一些变量权重都小,这也表现在主成分权重的形成的散点图会偏离坐标轴。 如果可以将主成分的坐标轴进行旋转,使一些变量的权重的绝对值在一个主成分上达到最大,而在其他主成分上绝对值最小,这样就达到了变量分类的目的。对应地,这种维度分析方法被称为因子分析。
因子分析是一类常用的连续变量降维并进行维度分析的方法,其经常采用主成分法作为其因子载荷矩阵的估计方法,在特征向量方向上,使用特征值的平方根进行加权,最后通过因子旋转,使得变量的权重在不同因子上更加两极分化。常用最大方差法进行因子旋转,这种方法是一种正交旋转。
2. 正交旋转因子模型
3. 因子分析的一般步骤
4. 因子载荷矩阵的估计
一般使用主成分分析方法。选择合适的因子数量,这一步需要主成分