Kernelized Principal Component Analysis详解

最新推荐文章于 2022-06-10 05:27:00 发布

Leon1895

最新推荐文章于 2022-06-10 05:27:00 发布

阅读量361

点赞数

分类专栏：机器学习文章标签： KPCA 核主成分分析

本文链接：https://blog.csdn.net/qq_40793975/article/details/86537350

版权

本文详细解析了主成分分析（PCA）的局限性，并介绍了如何通过引入核化来解决这一问题，即核主成分分析（KPCA）。KPCA通过非线性映射在高维空间中进行PCA，以更好地保留数据的结构。文章深入探讨了KPCA的推导过程，包括核函数的使用和计算复杂度的分析。

摘要由CSDN通过智能技术生成

Kernelized Principal Component Analysis详解

第三十八次写博客，本人数学基础不是太好，如果有幸能得到读者指正，感激不尽，希望能借此机会向大家学习。《主成分分析（PCA）详解（附带详细公式推导）》一文中曾对一种重要的降维手段——主成分分析（PCA）进行了讲解，这篇文章则主要对PCA的一种变体——核主成分分析（KPCA）进行讲解。

主成分分析的问题分析

主成分分析（PCA）中采用的降维方法是线性降维，然而在很多现实任务中，可能需要非线性映射才能找到恰当的低维嵌入（Low-dimension Embedding），如下图所示，图1（a）中的3000个样本点是从图1（b）所示的二维矩形区域采样后并以S形曲面嵌入到三维空间中的，为了对这个二维矩形区域和经过降维后得到的低维嵌入进行对比，在这里将此区域称为“本真”（Intrinsic）二维空间，可以看出经过PCA降维后得到的低维嵌入丢失了原始数据的低维结构。主成分分析（PCA）中采用的降维方法是线性降维，然而在很多现实任务中，可能需要非线性映射才能找到恰当的低维嵌入（Low-dimension Embedding），如下图所示，图1（a）中的3000个样本点是从图1（b）所示的二维矩形区域采样后并以S形曲面嵌入到三维空间中的，为了对这个二维矩形区域和经过降维后得到的低维嵌入进行对比，在这里将此区域称为“本真”（Intrinsic）二维空间，可以看出经过PCA降维后得到的低维嵌入丢失了原始数据的低维结构。

图1 线性降维的不足

基于上述问题，我们考虑向线性降维中引入“核化”（kernelized），下面对核化版本的主成分分析，即核主成分分析（Kernelized Principal Component Analysis，简称KPCA）进行分析。

核主成分分析的推导

假设，原始样本空间 $\mathbf{X}\in\mathbb{R}^{d\times{m}}$ ，核化后的样本空间 $\mathbf{Z}\in\mathbb{R}^{d'\times{m}}$ ，降维后得到的样本空间 $\mathbf{Y}\in\mathbb{R}^{d''\times{m}}$ ，那么由PCA我们可知存在如下等式，

$\left(\sum_{i=1}^{m}{\mathbf{z}_{i}\mathbf{z}_{i}^{T}}\right)\mathbf{w}_{j}=\lambda_{j}\mathbf{w}_{j} \tag{1}$

其中， $\mathbf{z}_i$ 是原样本空间中第 $i$ 个样本点 $\mathbf{x}_i$ 在核化后的高维空间中的对应点， $\mathbf{w}_j$ 是要求得的投影矩阵 $\mathbf{W}\in{\mathbb{R}^{d'\times{d''}}}$ 的第 $j$ 个向量， $\lambda_j$