本文将介绍主成分分析(Principal Component Analysis,PCA)原理,并且它如何在分类问题中发挥降维的作用。译自
简介
本文将介绍主成分分析(Principal Component Analysis,PCA)原理,并且它如何在分类问题中发挥降维的作用。
在前面我们讲到过维度灾难,分类器容易对高维的训练集产生过拟合。那么,哪些特征是更好的呢,而哪些又该从高维中除去呢
如果所有的特征向量间相互独立,我们可以很容易的去除区分度很小的特征向量,区分度小的向量可通过特征选择相关方法识别。然而,在实际中,很多向量彼此依赖或依赖潜在的未知变量。一个单一的特征可以用一个值来代表很多信息的集合。移除这样的特征将移除比所需要的更多的信息。在下一节,我们将介绍作为特征提取的解决此问题的PCA方法,并从两个不同的角度介绍它的内在工作原理。
PCA:一种去相关方法
屡见不鲜的是,特征都是相关的。例如,我们想要使用图像中每个像素的红色,绿色和蓝色分量来进行图像分类(例如侦测猫和狗),对红光最敏感的图像传感器也捕获一些蓝光和绿光。 类似地,对蓝光和绿光最敏感的传感器也对红光表现出一定程度的敏感度。 结果,像素的R,G,B分量在统计上是相关的。因此,简单地从特征向量中消除R分量,也隐含地除去关于G和B信道的信息。换句话说,在消除特征之前,我们想要转换完整的特征空间,从而得到底层的不相关分量。
下图是一个二维特征空间的例子:
图一
图中的特征x和y明显是相关的。事实上,它们的协方差矩阵是:
在前面的文章中,我们讨论了协方差矩阵的几何解释。 我们看到,协方差矩阵可以分解为在白色的不相关数据上一系列旋转和缩放操作,其中旋转矩阵由该协方差矩阵的特征向量定义。 因此,直观地看到,通过旋转每个数据点,上图所示的数据D可以被解相关,使得特征向量V成为新的参考轴:
图2
经旋转缩放的数据的协方差矩阵现在是对角线的,这意味着新的轴是不相关的:
事实上,上上图中的原始数据是通过两个1维高斯特征向量x1 ~ N(0,1),