SVM算法（三）核技巧

最新推荐文章于 2022-01-07 21:42:28 发布

guofei_fly

最新推荐文章于 2022-01-07 21:42:28 发布

阅读量1.4k

点赞数

分类专栏：机器学习文章标签： SVM 核技巧

本文链接：https://blog.csdn.net/guofei_fly/article/details/102687438

版权

机器学习专栏收录该内容

39 篇文章 10 订阅

订阅专栏

在前文SVM算法（二）线性可分的SVM求解中，详细推导了对线性可分数据的超平面划分原理，同时也抛出了一个问题：若数据非线性，该如何处理？这也是本文需要解决的问题。

一、非线性特征的线性求解

在线性模型 $\boldsymbol {wx+b}$ 中，可对原始线性特征 $\boldsymbol x$ 进行各类非线性转换 $\boldsymbol {\phi(x)}=x_ix_j,e^{x_i},x_i^2$ ，从而构成非线性特征。在这些非线性特征基础上，同样可以套用类似的线性模型 $\boldsymbol {\phi(x)+b}$ ，求得模型参数。

在原始的SVM问题中，目标问题也仅为线性约束下的二次规划问题，参数 $w$ 也仅为线性特征前的系数。 $\begin{aligned}&\min\frac{1}{2}w^2\\&s.t.\space \space y_i(wx_i+b)\ge1\end{aligned}$ 但在通过拉格朗日对偶问题变换，可得到对偶问题 $\max_{\alpha}\min_{w,b}\frac{1}{2}w^2+\sum\limits_i\alpha_i(1-y_i(wx_i+b)),\alpha\ge0$ ，从而包含n个线性参数 $w_i$ (对应于n个线性特征)的求解转变为对N个参数 $\alpha$ (对应于N个样本)的求解，其解为 $\max_{\alpha}-\frac{1}{2}\sum\limits_i^N\sum\limits_j^N\alpha_i\alpha_jy_iy_j(x_ix_j)+\sum\limits_i\alpha_i$ 注意到在上式中包含两个样本间特征的内积项 $x_ix_j$ ，若在问题求解前经过了非线性特征转换，则该内积项可显式写成 $\phi(x_i)\phi(x_j)$ ，即： $\max_{\alpha}-\frac{1}{2}\sum\limits_i^N\sum\limits_j^N\alpha_i\alpha_jy_iy_j(\phi(x_i)\phi(x_j))+\sum\limits_i\alpha_i$
但这样会带来如下一些问题：
（1）非线性变换 $\phi$ 是什么？对于具体的问题，我们并无法提前知晓合适的非线性变换是什么样的形式，因此无法做出准确的非线性特征变换。
（2）设置了非线性变换 $\phi$ ，运算量过大。对于每个样本都需要先进行非线性特征变换（维度可能非常大，甚至无穷），在计算两两样本间的特征内积。
鉴于此，正式引入核技巧。

二、核技巧

所谓的核技巧，即两样本在特征变换后的特征内积，可直接通过两样本原始特征内积在某函数（核函数）的变换得到。用数学的形式可表达为： $\phi(x_i)*\phi(x_j)=K(x_i*x_j)$

2.1 多项式核函数

假设非线性特征变换为: $\phi(\boldsymbol x)=(1, x_1,x_2,..x_n,x^2_1,x^2_2,...x^2_n)$ 所以 $\phi(\boldsymbol x_i)\phi(\boldsymbol x_j)=1+x_{i1}x_{j1}+...+x_{in}x_{jn}+x^2_{i1}x^2_{j1}+...+x^2_{in}x^2_{jn}=1+\boldsymbol{x_ix_j}+(\boldsymbol{x_ix_j})^2=K(\boldsymbol{x_ix_j})$ 可见，对于某些非线性特征变换，确实可以找到这样的核函数，无须显式求得具体非线性特征变换空间，从而使得计算更方便。
更一般的，我们可以定义如下的多项式核函数，其可以快速求得各类多项式特征变换后的特征内积值： $K(\boldsymbol{x_i,x_j})=(\zeta+\gamma\boldsymbol{x_ix_j})^d, \zeta\ge0,\gamma>0$

2.2 高斯核函数

假设核函数为： $\begin{aligned} & K(\boldsymbol{x_i,x_j}) \\ &=exp(-(\boldsymbol{x_i-x_j})^2)\\ &=exp^{-\boldsymbol x_i^2}exp^{-\boldsymbol x_j^2}exp^{2\boldsymbol x_i\boldsymbol x_j}\\&=exp^{-\boldsymbol x_i^2}exp^{-\boldsymbol x_j^2}\sum\limits_{k=0}^{+\infin}\frac{(2\boldsymbol x_i\boldsymbol x_j)^i}{i!}\\&=\sum\limits_{k=0}^{+\infin}exp^{-\boldsymbol x_i^2}exp^{-\boldsymbol x_j^2}\sqrt{\frac{2^k}{k!}}\boldsymbol x_i^k\sqrt{\frac{2^k}{k!}}\boldsymbol x_j^k\\&=\phi(\boldsymbol x_i)\phi(\boldsymbol x_j)\end{aligned}$ 其中 $\phi(\boldsymbol x_i)=(1, \sqrt 2exp^{-\boldsymbol x_i^2}x_i,\sqrt{\frac{2^2}{2!}}exp^{-\boldsymbol x_i^2}x_i^2,...)$ 可见，通过这种指数函数变换可以模拟无限维的非线性特征变换。
更一般的，定义如下的高斯核函数：
$K(\boldsymbol{x_i,x_j})=exp(-\gamma||\boldsymbol x_i-\boldsymbol x_j||^2)$
参数 $\gamma$ 反映了高斯核中心的丰满度，其值越大，则曲线越瘦高，中心区域越集中（类似于高斯分布中 $\sigma$ 参数的倒数）

2.3 sigmoid核函数

即双曲正切核，其核函数为：
$K(\boldsymbol{x_i,x_j})=tanh(-\gamma (\boldsymbol x_i *\boldsymbol x_j)+\zeta)$

2.4 线性核函数

若不经过任何核函数映射，直接求解原始线性特征内积的方法，叫做线性核，即: $K(\boldsymbol{x_i,x_j})=\boldsymbol{x_ix_j}$

三、SVM中核技巧的使用

在SVM对偶问题的求解中，广泛使用核技巧：
（1） $\alpha$ 的求解中： $\max_{\alpha}-\frac{1}{2}\sum\limits_i^N\sum\limits_j^N\alpha_i\alpha_jy_iy_j(\phi(x_i)\phi(x_j))+\sum\limits_i\alpha_i$
（2）参数 $b$ 的求解中： $b^*=y_j-\sum\limits_i\alpha_i^*y_i(\phi (x_i)\phi (x_j))$
（3）新数据的预测中： $sign(\sum\limits_i\alpha_i^*y_i\phi (x_i)\phi (x)+y_j-\sum\limits_i\alpha_i^*y_i(\phi (x_i)\phi (x_j)))$ 在以上诸处的内积处均可引入核技巧，以方便运算。