1.KPCA主要思想是先将样本映射到高维空间,再在高维空间中使用线性降维的方法
2.核函数可以直接对特征向量的内积进行变换,等价于先对特征向量做核映射然后做内积
3.KPCA算法流程有四步:
去除平均值,进行中心化
利用核函数计算核矩阵K
计算核矩阵的特征值和特征向量
将特征向量按对应特征值大小从上到下按行排列成矩阵,取前k行组成降维后 的数据矩阵P
KPCA是基于核函数的非线性降维方法,主要解决PCA无法针对非线性做降维的局限,主要思想是先将样本映射到高维空间,再在高维空间中使用线性降维的方法。由此要介绍核函数,我们就从这里讲起。
1.核函数
先介绍从低维映射空间到高维空间的方法:
该映射表示将原始的d维数据集映射到更高维的k维特征空间。
比如这样:
那为什么要做这样的转化呢,一开始的目的就是为了降维,现在是把数据映射到更高维的空间,不是南辕北辙吗?
因为面对样本线性不可分的时候,可以对特征向量进行映射将它转化到一般来说更高维的空间,使得在该空间中是线性可分的,这种方法在机器学习中被称为核技巧。
好了,