PCA主成分分析法
PCA是一种数据分析的方法,消除原始数据中可能存在的线性相关性使其变为一组线性无关的数据,可用于提取特征向量,高维数据降维处理。
这里用一个通俗易懂的例子来表明PCA的作用:
假设现在有一组西瓜数据(价格x,体积y,质量z),假设我们不知道这组数据里的三个值之间有何联系,那么我们要表示这组西瓜的数据就需要在一个三维坐标系下进行,也叫三维坐标基。如下所示即是我们最常用的笛卡尔三维正交坐标基。
在这个坐标上我们就可以把每一个西瓜的数据表示成一点。然而显而易见的是,同品种西瓜的质量和体积必然必然存在一种线性关系,即知道一个西瓜的体积,我们就可以大致推断出此西瓜的质量,知道西瓜的质量我们就能大概推出西瓜的体积,所以我们就可以把该数据降至二维(x价格,y体积)或者(x价格,z质量)。这就是简单的数据的降维处理。
那么在解决实际问题中可能涉及到的数据向量组的元素就不止是三个四个这样子,动辄成千上万上百万也是有的,那么如果直接处理这样的数据就会使计算机资源占用高且效率低,这样就需要计算机进行数据的降维处理,即尽可能地把数据降维至元素不再有线性相关的可能并且能够最大程度地还原成初始数据。
至于该怎么进行降维处理,很多资料都有详细过程,建议先对线性代数中的向量组的线性相关/线性无关,矩阵的乘法,方差协方差先有一定的了解,过程再理解起来就会比较容易。