SVM（2）-- Kernel

最新推荐文章于 2021-03-24 20:32:22 发布

iamxiaofeifei

最新推荐文章于 2021-03-24 20:32:22 发布

阅读量527

点赞数

分类专栏： Machine Learning

本文链接：https://blog.csdn.net/iamxiaofeifei/article/details/77964568

版权

Machine Learning 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

对于非线性分类，SVM一般有两种选择：
1. 容忍错误分类，即引入soft margin
2. 利用kernel trick，对input space做feature expansion，形成feature space，即把数据映射到高维中去。
这里谈谈kernel。

核技巧（kernel trick）：

学习是隐式地在特征空间下进行的，不需要显式地定义特征空间（feature space）和映射函数（ $\phi$ ），这样的技巧称为核技巧。

在线性可分支持向量机的对偶问题中，无论是目标函数还是决策函数都只涉及输入样本与样本之间的内积，从头到尾都是在做内积运算。如果为了让数据线性可分，将数据映射到高维的特征空间，在特征空间计算内积就很麻烦了，而且也没有必要。

$\min\limits_{\alpha}(\frac{1}{2}\sum\limits_{i=1}^m\sum\limits_{j=1}^m\alpha_i\alpha_jy_iy_j\phi(x_i)\phi(x_j)-\sum\limits_{i=1}^m\alpha_i)$

这个时候有个定理出现了，叫Mercer Theorem。
这个定理说明：那些原始维度的内积转换到高维空间的内积就等于把数据带入核函数的结果。即 $K(x_i,x_j)=\phi(x_i)\phi(x_j)$

将内积用核函数代替。
对偶问题的目标函数转化成：

$\min\limits_{\alpha}(\frac{1}{2}\sum\limits_{i=1}^m\sum\limits_{j=1}^m\alpha_i\alpha_jy_iy_jK(x_i,x_j)-\sum\limits_{i=1}^m\alpha_i)$
$s.t. \sum\limits_{i=1}^m\alpha_iy_i=0$
$\alpha_i\ge0,i=1,2,...,m$

如果我已知了一个核函数 $K(x,z)$ ，我就不需要构造映射函数 $\phi(x)$ .

小结：经过映射函数 $\phi$ 将原来的input space变换到一个新的feature space，将输入空间的内积变换为特征空间中的内积 $\phi(x_i)\cdot\phi(x_j)$ ，在新的feature space中学习线性SVM。当映射函数 $\phi$ 是非线性函数时，学习到的还有核函数的SVM是非线性的分类模型。而在具体计算 $\phi(x_i)\phi(x_j)$ 的时候以核函数的计算结果 $K(x_i,x_j)$ 取而代之。不需要在高维空间进行计算，也不需要知道映射函数具体是什么。