PCA在很多方面均有应用,但是之前没有仔细探究过,最近看了一些博客和论文,做一下总结。
主成分分析(Principal Component Analysis,PCA), 是一种统计方法。通过正交变换将一组可能存在相关性的变量转换为一组线性不相关的变量,转换后的这组变量叫主成分。
为什么需要PCA?
通俗一点说,PCA是一种降维的方法。我们知道,维数越大通常越难处理,在机器学习中,得到的数据维数通常都很高,处理起来很麻烦,资源消耗很大,因此对数据进行降维处理是很必要的。
但是降维就意味着信息的丢失吗?多少是有一点的。但是总有一些情况,让我们能能够在信息损失相对比较少的同时完成降维。比如:
如果某两个特征之间存在关联。举个比较极端的的例子,一个正方形的边长和它的面积,各属于两个特征,但是知道了边长面积肯定是确定的,那么就可以直接丢掉一列(边长或面积)。
如果某个维度存在并没有什么价值。这里举个比较经典的例子,就是电视转播球赛,把现场的三维转成平面的二维呈现在你眼前,减少了一维但是对于观众来说,并无太大影响。
......
通过减少冗余信息,降低了维度,让之后处理数据更加容易,而有大部分有价值的信息都保留下来。而到底哪些信息是重要的?哪些可以删去?在这里还要注意:降维并不简单的值删去某个维度,大部分情况下,降维的同时基也改变了。那么如何选取新的基?这就是PCA解决的问题。
补充看到过的一个比较好的例子:
假设我们整理了30个人的体重,身高和IQ,放在一个矩阵中,每一列是一个样本(一个人的这三个变量)。为了便于观察可以在三维坐标中描点,每一维代表一个变量。提出问题:
有没有更简单的使数据可视化的方法?对于这个三维图像,能否在二维空间中描述它?
那些变量间是相互关联的?在这个例子中,根据常识,应该认为身高和IQ没有必然联系,而身高和体重有一定的联系。
有没有一个变量能够描述整个数据集?
PCA原理分析
目标
先简单描述一下PCA要做的事。
假设有一组数$\begin{pmatrix}1 & 1 & 2 & 4 & 2 \\1 & 3 & 3 &4& 4\end{pmatrix}$, 先做简单处理,每个数减去均值,这样算方差的时候方便(因为要减均值),得到$\begin{pmatrix}-1 & -1 & 0 & 2 & 0\\-2 & 0 & 0 & 1 & 1\end{pmatrix}$
在二维坐标系中描出:
因为这里只是二维的,那么要降成一维就是在这个二维平面重新找一个方向,并把这些点映射到这个方向上。试想,怎么才能找到这个方向,且不损失大部分信息呢?
容易想到,最后找到的这个方向,这些点的投影都不重叠,分隔的较远。
提出假设和目标:
充分统计量(sufficient statistic),即当知道这些量的时候,这个分布就可以确定了,均值和方差可以看成是其充分统计量。
大的方差(variances)代表这个量的强动态性,就是说如果映射到新坐标上拥有大的方差,那么这个维度可以较好的反应数据的特征。
主成分需要正交,这个可以看下面关于方差和协方差的讨论,正交代表两成分相关性为0,这样坐标的选取才有意义。
如何达到这些目的呢?先看一些概念和例子。
基变换
若使用我们惯用的二维直角坐标系来表示这个下图这个向量。