【机器学习】非线性降维与核主成分分析KPCA

最新推荐文章于 2025-04-04 13:02:01 发布

邓坤元

最新推荐文章于 2025-04-04 13:02:01 发布

阅读量4.3k

点赞数 2

分类专栏：机器学习机器学习进阶之路文章标签：核主成分分析 KPCA 非线性降维核化线性降维降维

本文链接：https://blog.csdn.net/pxhdky/article/details/85248575

版权

机器学习同时被 2 个专栏收录

29 篇文章

订阅专栏

机器学习进阶之路

26 篇文章

订阅专栏

其他机器学习系列文章见于专题：机器学习进阶之路——学习笔记整理，欢迎大家关注。

1. 核化线性降维

线性降维方法假设从高维空间到低维空间的函数映射是线性的，然而在有些时候，高维空间是线性不可分的，需要找到一个非线性函数映射才能进行恰当的降维，这就是非线性降维。

线性可分问题与线性不可分问题

核化线性降维方法是一种典型的非线性降维方法，它基于核技巧对线性降维方法进行“核化”，然后再降维。

下面我们将要介绍的核主成分分析（KPCA）就是一种经典的核化线性降维方法。

2. KPCA概述

核主成分分析（Kernelized PCA，KPCA）利用核技巧将 $d$ 维线性不可分的输入空间映射到线性可分的高维特征空间中，然后对特征空间进行PCA降维，将维度降到 $d^{'}$ 维，并利用核技巧简化计算。也就是一个先升维后降维的过程，这里的维度满足 $d^{'} < d < D$ 。

3. KPCA原理

原始输入空间中的样本 $\left( {{x_1},{{x}_2}, \ldots ,{{x}_m}} \right)$ 通过映射 $\phi$ 得到高维（ $D$ 维）特征空间的样本 $\Phi ( X ) = \left( \phi \left( x _ { 1 } \right) , \ldots , \phi \left( x _ { i } \right) , \ldots , \phi \left( x _ { m } \right) \right)$ （假设高维空间的数据样本已经进行了中心化），之后利用投影矩阵 $\left( {{w_1}, \ldots ,{w_j}, \ldots ,{w_{d'}}} \right)$ 把高维空间的样本投影到低维空间。

我们只需要对高维空间的协方差矩阵 $\Phi ( X ) \Phi ( X ) ^ { T }$ 进行特征值分解，将求得的特征值排序，取前 $d^{'}$ 个特征值对应的特征向量构成 $\left( w _ { 1 } , w _ { 2 } , \dots , w _ { d ^ { \prime } } \right)$ ，这就是KPCA的解。

首先求解式（1）：
$\Phi \left( X \right)\Phi {\left( X \right)^T}W = \lambda W\tag{1}$

由式（1）可得式（2）：
$\frac{1}{\lambda }\Phi \left( X \right)\Phi {\left( X \right)^T}W = \Phi \left( X \right)A \tag{2}$

其中，投影矩阵的第 $j$ 维为 $\frac { 1 } { \lambda _ { j } } \left( \sum _ { i = 1 } ^ { m } \phi \left( x _ { i } \right) \phi \left( x _ { i } \right) ^ { T } \right) w _ { j } = \sum _ { i = 1 } ^ { m } \phi \left( x _ { i } \right) \frac { \phi \left( x _ { i } \right) ^ { T } w _ { j } } { \lambda _ { j } } = \sum _ { i = 1 } ^ { m } \phi \left( x _ { i } \right) \alpha _ { i } ^ { j }$ ；而 $\alpha _i^j = \frac{1}{{{\lambda _j}}}\phi {\left( {{x_i}} \right)^T}{w_j}$ 是 ${\alpha _i}$ 的第 $j$ 个分量，矩阵 ${\bf{A}} = \left( {{\alpha _1}, \ldots ,{\alpha _i}, \ldots ,{\alpha _m}} \right)$ 。

高维空间的样本内积计算量非常大，在这里，利用核技巧避免对特征空间上的样本内积直接进行计算，于是我们需要引入核函数： $\kappa \left( \boldsymbol { x } _ { i } , \boldsymbol { x } _ { j } \right) = \phi \left( \boldsymbol { x } _ { i } \right) ^ { \mathrm { T } } \phi \left( \boldsymbol { x } _ { j } \right)$ 和核矩阵 $\mathbf { K }$ ，其中 $\mathbf { K } ) _ { i j } = \kappa \left( \boldsymbol { x } _ { i } , \boldsymbol { x } _ { j } \right)$ 。

先将式（2）代入式（1）得到：
$\Phi ( X ) \Phi ( X ) ^ { T } \Phi ( X ) A = \lambda \Phi ( X ) A\tag{3}$

两边左乘 $\Phi ( X ) ^ { T }$ ：
$\Phi ( X ) ^ { T } \Phi ( X ) \Phi ( X ) ^ { T } \Phi ( X ) A = \lambda \Phi ( X ) ^ { T } \Phi ( X ) A\tag{4}$

构造出 $\Phi ( X ) ^ { T } \Phi ( X )$ ，进一步用核矩阵 $\mathbf { K }$ 代替：
$\mathbf { K } ^ { 2 } \mathbf { A } = \lambda \mathbf { K } \mathbf { A }\\ \mathbf { K A } = \lambda \mathbf { A }\tag{5}$

由此，式（1）中的特征值分解问题就变成了式（5）中的特征值分解问题。将求得的特征值排序： $\lambda _ { 1 } \geq \lambda _ { 2 } \geq \ldots \geq \lambda _ { D }$ ，取 $\mathbf { K }$ 最大的 $d^{'}$ 个特征值对应的特征向量。注意：这里的特征向量是核矩阵 $\mathbf { K }$ 的特征向量，而不是投影矩阵 $W$ 的特征向量，接下来还要代回到（2）式中，得到从高维输入空间到低维空间的投影矩阵 $W$ 。

对于一个新样本 $x$ ，假设其投影后为 $z$ ，其第 $\left( j = 1,2 , \dots , d ^ { \prime } \right)$ 维坐标为：
$\begin{aligned} z _ { j } & = \boldsymbol { w } _ { j } ^ { \mathrm { T } } \phi ( \boldsymbol { x } ) = \sum _ { i = 1 } ^ { m } \alpha _ { i } ^ { j } \phi \left( \boldsymbol { x } _ { i } \right) ^ { \mathrm { T } } \phi ( \boldsymbol { x } ) \\ & = \sum _ { i = 1 } ^ { m } \alpha _ { i } ^ { j } \kappa \left( \boldsymbol { x } _ { i } , \boldsymbol { x } \right) \end{aligned}\tag{6}$