主成分分析（PCA）算法理解

深圳湾刘能

于 2018-12-21 17:30:10 发布

阅读量623

点赞数

分类专栏： Machine Learning 文章标签： PCA 降维

本文链接：https://blog.csdn.net/Oscar6280868/article/details/85126637

版权

Machine Learning 专栏收录该内容

20 篇文章 11 订阅

订阅专栏

主成分分析（PCA，principle component analysis）算法是一种机器学习中常用的降维算法，这种算法可以用在数据压缩降维，这样可以加快机器学习的速度，PCA还可以用在数据可视化上，因为高维的特征数据是无法观察的，我们可以通过PCA算法将高维的数据降到2维或者3维，这样就可以在坐标系中体现出来。
首先我们来看看PCA降维的原理，假设在 ${R^n}$ 空间中有m个点 ${ {x^{(1)}},{x^{(2)}},...,{x^{(m)}}\}$ ，我们希望对这些点进行压缩，当然压缩是有损失的，我们目标是将这些损失减到最小。编码这些点的一种方式就是用低维表示，对于每个点 ${x^{(i)}} \in {R^n}$ ，会有一个对应的编码向量 ${c^{(i)}} \in {R^l}$ ， ${l}$ 表示向量的特征数。我们希望找到一个编码函数，根据我们的输入数据返回编码， $f (x) = c$ ;当然有编码也有解码，我们也希望找到一个解码函数，这个函数可以重构我们的输入， $x = g (f (x))$ 。
PCA由我们选择的解码函数而定，为了简化解码器，我们使用矩阵乘法将编码映射回 ${R^n}$ ，即 $g (c) = D c$ ，在这个式子中D表示 ${R^{n \times l}}$ 的解码矩阵。
首先，我们需要明确如何根据每一个输入 $x$ 得到一个最优编码 ${c^*}$ ，一种方法是最小化原始输入向量 $x$ 和重构向量 $g(c^*)$ 之间的距离，一般来说，我们使用范数来衡量 $x$ 和 $g(c^*)$ 之间的距离，PCA算法中，我们使用2范数，这样一来PCA算法就可以转化成求最优解的问题：
${c^*} = \mathop {\arg \min }\limits_c {\left\| {x - g(c)} \right\|_2}$ 然而这个问题可以等价成：
${c^*} = \mathop {\arg \min }\limits_c \left\| {x - g(c)} \right\|_2^2$
这个表达式最小化的部分可以表示成：
${(x - g(c))^T}(x - g(c))$
我们将这个数学表达式进行展开：
${(x - g(c))^T}(x - g(c)) = {x^T}x - {x^T}g(c) - g{(c)^T}x + g{(c)^T}g(c)$
因为 $g(c){x^T} = {(g{(c)^T}x)^T} = {x^T}g(c)$ ，所以上述公式可以写成：
${x^T}x - 2{x^T}g(c) + g{(c)^T}g(c)$ 因为 ${x^T}x$ 与 $c$ 是不相关的，所以我们可以重新调整我们的优化目标函数：
${c^*}{\text{ = }}\mathop {\arg \min }\limits_c [ - 2{x^T}g(c) + g{(c)^T}g(c)]$
因为之前定义过 $g (c) = D c$ ，我们将 $g (c)$ 带入目标函数中可以得到：
${c^*} = \mathop {\arg \min }\limits_c [ - 2{x^T}Dc + {c^T}{D^T}Dc]$
为了简化我们的PCA算法，我们假设D是正交矩阵，那么我们就可以将目标函数简化：
${c^*} = \mathop {\arg \min }\limits_c [ - 2{x^T}Dc + {c^T}{I_l}c]=\mathop {\arg \min }\limits_c [ - 2{x^T}Dc + {c^T}c]$ ，简化了目标函数之后，我们可以将目标函数对 $c$ 求偏导：
$\frac{{\partial [ - 2{x^T}Dc + {c^T}c]}}{{\partial c}} = \frac{{\partial [ - 2{c^T}{D^T}x + {c^T}c]}}{{\partial c}} = - 2{D^T}x + 2c = 0$
由上述表达式我们可以得到 $c = {D^T}x$ ，那么就有编码函数 $c=f(x)={D^T}x$ 。为了便于理解，我们可以将2D降维到1D为例，当二位向量向一维向量映射的时候，映射后的数据分布更分散，我们就会认为数据降维的效果就越好，数据的方差就越大，所以我们PCA降维的目标就是最大化投影方差。因为维度是1，所以我们D可以简化成d，因此 ${x^{(i)}}$ 在d上的投影坐标可以表示成两个向量的内积 ${x^{(i)}},d) = {[{x^{(i)}}]^T}d$ ，我们目标要找到这个投影方向d，使得我们的数据 ${x^{(1)}},{x^{(2)}},...,{x^{(n)}}$ 在d上的投影方差最大，点更加分散。投影之后的方差可以表示成： $\frac{1}{n}\sum\limits_{i = 1}^n {{{({x^{(i)}}^Td)}^2} = } \frac{1}{n}\sum\limits_{i = 1}^n {{{({x^{(i)}}^Td)}^T}} ({x^{(i)}}^Td)$
我们将式子展开可以得到： $\frac{1}{n}\sum\limits_{i = 1}^n {{d^T}{x^{(i)}}{x^{(i)}}^Td} = {d^T}(\sum\limits_{i = 1}^n {{x^{(i)}}{x^{(i)}}^T} )d$
所以要求解 $d$ ，我们可以将上述式子表示成 $\mathop {\arg \max }\limits_d = {d^T}(\sum\limits_{i = 1}^n {{x^{(i)}}{x^{(i)}}^T} )d$ ， $s.t. {d^T}d = 1$ 。这里我们可以引入拉格朗日乘子，可以得到：
$F(d,x,\lambda ) = {d^T}(\sum\limits_{i = 1}^n {{x^{(i)}}{x^{(i)}}^T} )d + \lambda (1 - {d^T}d)$ 我们再将 $F(d,x,\lambda )$ 对 $d$ 求偏导，再令其等于0，可以得到 $(\sum\limits_{i = 1}^n {{x^{(i)}}{x^{(i)}}^T} )d = \lambda d$ ，将这个式子带入拉格朗日函数中可以得到：
${d^T}(\sum\limits_{i = 1}^n {{x^{(i)}}{x^{(i)}}^T} )d = \lambda {d^T}d = \lambda$ ，最终可以很明显地看出 $x$ 投影之后的方差就是协方差矩阵的特征值，我们要找到最大的方差也就是协方差矩阵的最大特征值，最佳投影方向就是最大特征值所对应的特征向量。
以上就是对PCA降维算法的理解，希望对大家在数据降维方面的理解上有所帮助，文中如有纰漏，也请大家不吝指教，谢谢。