一些要点
- 用于高维数据降维,用低维尽可能地表示更多的信息
- 通过线性组合已有变量,形成新的综合变量(注意:主成分分析并不是对初始变量进行简单的排序,而是组合将大量初始变量化为少量综合变量)
操作步骤
- 对连续变化的初始变量进行标准化
- 计算协方差矩阵,观察关联关系
- 计算协方差的特征值与特征向量,分析主要成分
- 创造一个特征向量,选择需要保留的主成分
- 根据主成分进一步处理和分析数据
以上为数学上的操作步骤,但在软件SPSS中可以直接集成实现
对PCA的理解
PCA是常用的一种数据降维手段,将数据集中的多数变量转变为保留数据集尽可能多的信息的少数变量。减少变量个数,总是以丢失准确性的代价来换去简便性。更少的变量数,更容易做可视化与相关分析,应用一些机器学习算法时的效率也会更高。
按步骤分析
标准化
本步骤是对现有连续初始数据进行标准化处理,使得每个变量对分析的贡献是一致的。这个步骤十分重要的原因是,PCA分析对每个变量的方差是十分敏感的。这可能会导致方差比较大的变量会完全支配方差比较小的变量,从而得出奇怪的结论。但对变量进行标准化后,将变量均化在具有比较意义的区间,可以避免这个问题。
协方差矩阵的计算
这一步是为了理解初始数据的平均值之间有什么相互关系。当变量间的关联关系较强时,所带了的冗余信息也就越多。
协方差矩阵是一个p*p的矩阵(p为数据的维度数),主对角线为对应变量的方差值,且矩阵关于主对角线对称。
协方差矩阵中数字正负的含义,表示随一个变量的增加,另一个变量是增加(+)还是减少(-)。
通过计算协方差矩阵的特征值来得到主成分
需要注意的是,主成分是由初始变量线性组合形成的,因此较难解释其实际含义。
主成分的排名是由方差大小决定的,方差越大,在主成分的排名中越靠前。