机器学习技法-Kernel Support Vector Machine

最新推荐文章于 2024-07-08 23:00:10 发布

遇见更好的自己

最新推荐文章于 2024-07-08 23:00:10 发布

阅读量926

点赞数

分类专栏：机器学习台大林轩田机器学习课程笔记文章标签：机器学习 svm kernel

本文链接：https://blog.csdn.net/yc1203968305/article/details/78712567

版权

机器学习同时被 2 个专栏收录

42 篇文章 2 订阅

订阅专栏

台大林轩田机器学习课程笔记

27 篇文章 5 订阅

订阅专栏

大纲

这里写图片描述
上节课我们主要介绍了SVM的对偶形式，即dual SVM。Dual SVM也是一个二次规划问题，可以用QP来进行求解。之所以要推导SVM的对偶形式是因为：首先，它展示了SVM的几何意义；然后，从计算上，求解过程“好像”与所在维度 $\hat{d}$ 无关，规避了 $\hat{d}$ 很大时难以求解的情况。但是，上节课的最后，我们也提到dual SVM的计算过程其实跟 $\hat{d}$ 还是有关系的。那么，能不能完全摆脱对 $\hat{d}$ 的依赖，从而减少SVM计算量呢？这就是我们本节课所要讲的主要内容。

Kernel Trick

1 Dual SVM Revisited

这里写图片描述

我们在计算 $z_n^Tz_m$ 的时候，分为两步

1.进行特征转换计算 $\phi(x_n)$ , $\phi(x_m)$
2然后计算 $\phi(x_n)$ 与 $\phi(x_m)$ 的内积

这种先转换再计算内积的方式，必然会引入 $\hat{d}$ 参数，从而在 $\hat{d}$ 很大的时候影响计算速度。那么，若把这两个步骤联合起来，是否可以有效地减小计算量，提高计算速度呢？

2 Fast Inner Product for Φ2

让我们来看一个二阶多项式转换的例子

这里写图片描述

我们可以发现，我们可以通过一定形式的转换，把计算复杂度从 $O(\hat{d})$ ，降低到 $O(d)$ ,虽然这只是个别例子，但它让我们看到了减少计算复杂度的希望

3 Kernel: Transform + Inner Product

我们把合并特征转换和计算内积这两个步骤的操作叫做Kernel Function，用大写字母K表示。比如上面这个二阶多项式的例子

K ϕ 2 (x, x') = 1 + (x T x') + (x T x') 2

$K_{\phi_{2}}(x,x') =1+(x^Tx')+(x^Tx')^2$
有了Kernel Function之后，我们看它是如何在SVM中发挥作用的

$q_{n,m}=y_ny_mz_n^Tz_m=y_ny_mK(x_n,x_m)$ ,我们可以通过计算 $K(x_n,x_m)$ ,降低复杂度。
$b = y_s-w^Tz_s=y_s-(\sum_{n=1}^N\alpha_ny_nz_n)^Tz_s = y_s-\sum_{n=1}^N\alpha_ny_n(K(x_n,x_s))$ ,这样b的计算复杂度就与 $\hat{d}$ 无关了
$g_{svm} = sign(w^T\phi(x)+b) =sign(\sum_{n=1}^N\alpha_ny_n(K(x_n,x))+b)$ ,这样我们的所求的函数就与 $\hat{d}$ 无关了

核技巧就是利用kernel function来避免计算过程中受d̂ 的影响，从而提高运算速度。

4 Kernel SVM with QP

通过引入Kernel function，我们可以把SVM算法改造成以下形式，并进行时间复杂度分析

这里写图片描述

Kernel SVM通过SV来得到最佳分类面，并且通过Kernel function来避免计算过程中受到 $\hat{d}$ 的影响，从而提高了运算速度

Polynomial Kernel

1 General Poly-2 Kernel

这里写图片描述

比较一下，第一种 $\phi_2(x)$ （蓝色标记）和第三种 $\phi_2(x)$ （绿色标记）从某种角度来说是一样的，因为都是二次转换，对应到同一个z空间。但是，它们系数不同，内积就会有差异，那么就代表有不同的距离，最终可能会得到不同的SVM margin。所以，系数不同，可能会得到不同的SVM分界线。通常情况下，第三种 $\phi_2(x)$ （绿色标记）简单一些，更加常用。

2 Poly-2 Kernels in Action

这里写图片描述

不同的核对应不同的SVs和maigin.从而最佳分离超平面也不同

3 General Polynomial Kernel

更为一般的，我们可以导出Q次多项式的核函数
这里写图片描述
使用高阶的多项式

可以尽可能的将数据点分开，因为有最大margin的保证，减少过拟合的风险
因为使用了核技巧，所以可以大大减少计算量

4 Special Case: Linear Kernel

这里写图片描述

实践中，我们可以先尝试liner kernel.然后慢慢的增加复杂度

Gaussian Kernel

1 Kernel of Infinite Dimensional Transform

接下来我们可以考虑一种将特征映射到无限维，而不会带来多余的计算量的核函数

这里写图片描述

根据上面的公式推导，我们可以看到，通过高斯核函数，我们确实把特征映射到了无限维

2 Hypothesis of Gaussian SVM

这里写图片描述

通过上式可以看出， $g_{SVM}$ 有n个高斯函数线性组合而成，其中n是SV的个数。而且，每个高斯函数的中心都是对应的SV。

3 Gaussian SVM in Action

这里写图片描述

从图中可以看出，当 $\gamma$ 比较小的时候，分类线比较光滑，当 $\gamma$ 越来越大的时候，分类线变得越来越复杂和扭曲，直到最后，分类线变成一个个独立的小区域，像小岛一样将每个样本单独包起来了。为什么会出现这种区别呢？这是因为γ越大，其对应的高斯核函数越尖瘦，那么有限个高斯核函数的线性组合就比较离散，分类效果并不好。所以，SVM也会出现过拟合现象， $\gamma$ 的正确选择尤为重要，不能太大。