从PCA到Kernel PCA（Python）

五道口纳什

已于 2022-10-10 15:25:06 修改

阅读量1.3w

点赞数 7

分类专栏：机器学习文章标签： python 机器学习人工智能

于 2016-01-10 15:56:51 首次发布

本文链接：https://blog.csdn.net/lanchunhui/article/details/50492482

版权

PCA作为数据预处理手段，将数据映射到最大化方差的低维空间。Kernel PCA通过核函数处理非线性可分数据，实现线性可分。RBF核函数是最常见的选择，通过计算核矩阵并进行特征值分解得到降维后的数据。在非线性数据集上，KPCA展示了优于PCA的效果。

摘要由CSDN通过智能技术生成

PCA不进行分类的动作，而只做做数据预处理，将样本变换到一个容易分类（向最大化方差的方向，principal component axes，投影）的更低维的新的特征空间中。Kernel PCA比PCA多了一步，也即先升维（RBF包括多项式核均是升高到无穷维）再进行投影的动作，因为有些非线性可分的数据集只有在升维的视角下才线性可分。

##PCA

均值化的数据：
$\sum_i\mathrm{x}_i=0$

# python 
>>> X-np.mean(X, 0)
				# 一个二维矩阵减去一维向量？对，
				# 这里用到的技术是numpy中broadcasting（广播机制）

样本协方差矩阵（sample-covariance matrix $C$ ）
$C=\frac1N\sum_i\mathrm{x}_i\mathrm{x}_i^T=\frac1NXX^T$
其中， $X$ 的每一列表示一个样本（特征向量）
特征分解
$C=U\Lambda U^T=\sum_\alpha \lambda_\alpha\mathbf{u}_\alpha\mathbf{u}_\alpha^T$
projection or transform

$\mathrm{y}_i=U_k^T\mathrm{x}_i$

$\frac1N\sum_i\mathrm{y}_i\mathrm{y}_i^T=\frac1N\sum_iU_k^T\mathrm{x}_i\mathrm{x}_i^TU_k=U_k^T(\frac1N\sum_i\mathrm{x}_i\mathrm{x}_i^T)U_k=U_k^TCU_k=U_k^TU\Lambda UU_k^T=\Lambda_k$