核PCA与PCA的精髓和核函数的映射实质

最新推荐文章于 2024-08-26 18:57:48 发布

攻城狮凌风

最新推荐文章于 2024-08-26 18:57:48 发布

阅读量1w

点赞数 4

分类专栏：模式识别与机器学习文章标签：核PCA KPCA样本中心化 PCA实质多项式核显式表征核函数

本文链接：https://blog.csdn.net/qianhen123/article/details/40863753

版权

本文介绍了PCA的基本原理和作用，指出PCA在处理线性相关性时的效果。接着详细阐述了核PCA（KPCA），它是PCA在非线性情况下的扩展，通过核函数实现映射到高维空间后再降维。文章讨论了KPCA的映射样本中心化问题，并介绍了常见的核函数，特别是多项式核的显式映射机制。最后，总结了KPCA的关键步骤，强调了其在去除非线性相关性和降维中的应用。

摘要由CSDN通过智能技术生成

1.PCA简介

遭遇维度危机的时候，进行特征选择有两种方法，即特征选择和特征抽取。特征选择即经过某种法则直接扔掉某些特征，特征抽取即利用映射的方法，将高维度的样本映射至低维度。PCA(或者K-L变换)，即Principal Component Analysis是特征抽取的主要方法之一。

    PCA适用于非监督的学习的不带标签(带标签的样本，往往用LDA降维)的样本降维，特别是小样本问题。广义认为，这类样本属性之间的相关性很大，通过映射，将高维样本向量映射成属性不相关的样本向量。PCA的步骤是：
       1.特征中心化。即每一维的数据都减去该维的均值。
       2.计算协方差矩阵.
       3.计算协方差矩阵的特征值和特征向量。
       4.选取从大到小依次选取若干个的特征值对应的特征向量，映射得到新的样本集。

具体步骤和分析点击：主成分分析PCA，特征降维-PCA

实际上，大的特征值表征这个映射向量——或者映射方向，能够使得样本在映射后，具有最大的方差。样本在这个方向最发散（stretched out）通常情况下，有用信息具有较大的方差，或者说较大的能量。反而言之，小的特征值对应的特征向量方向，样本映射后方差较小，也就是说噪声往往方差小(如高斯白噪声)。这是基于通常的情况，当然也可能说，高频信号往往类似于噪音(比如说图像噪声和边缘)，也有小方差现象，此时可以利用到独立成分分析(Independent Component Analysis)。

   可以证明，PCA映射过程满足一定最优性：
       1.重建误差最小理论(reconstruction error)。误差的2范数等于未使用(剩下)的映射向量对应的协方差特征值之和。
        2.最大方差理论。在信号处理中认为信号具有较大的方差，噪声有较小的方差，信噪比(信号与噪声的方差比）越大越好。
        3.最小平方误差理论。简单理解，利用2范数求导可以得到样本中心最能代表所有的样本点，倘若从样本中心画出一条直线，在高维空间拟合样本集(即所有的样本离这条直线的垂直距离之和最短)。求出来的直线的方向，也是映射向量的方向，且大特征向量对应的方向所得到的直线，该平方误差最小。