PCA是principal component analysis 的缩写,即主成分分析。此方法目标是找到数据中最主要的元素和结构,去除噪音和冗余,将原有的复杂数据降维,揭露出隐藏在复杂数据背后的简单结构。从线性代数角度来看,PCA目标是找到一组新正交基去重新描述得到的数据空间,这个维度就是主元。
混乱数据中通常包含三种成分:噪音、旋转和冗余。在区分噪音时候,可以使用信噪比或者方差来衡量,方差大的是主要信号或者主要分量;方差较小的则认为是噪音或者次要分量;对于旋转,则对基向量进行旋转,使得信噪比或者方差最大的基向量就是主元方向;在判断各个观测变量之间是否存在冗余时,可以借助协防差矩阵来进行衡量和判断。
PCA的主要思想是:(1)