SVM学习笔记-核函数与非线性SVM

最新推荐文章于 2024-09-02 09:56:22 发布

土肥宅娘口三三

最新推荐文章于 2024-09-02 09:56:22 发布

阅读量8.8k

点赞数 8

分类专栏：机器学习文章标签： SVM 机器学习核函数和非线性的SV

本文链接：https://blog.csdn.net/robin_xu_shuai/article/details/76946333

版权

机器学习专栏收录该内容

31 篇文章 9 订阅

订阅专栏

$SVM$ 学习笔记第三篇

Kernel Support Vector Machine

1 - 核技术

1.1 - 回顾

上次讲到了 $SVM$ 的对偶形式，这个对偶问题也是二次规划问题。所以可以使用二次规划的方法来解决。之所以要使用 $SVM$ 的对偶形式，是因为它告诉了我们 $SVM$ 背后的一些几何意义，例如，对偶的 $SVM$ 问题的解中 $\alpha_n \ge 0$ 所对应的那些点 $(z_n, y_n)$ 就是我们想要找的支撑向量。另一方面，这个对偶问题在求解的时候好像几乎和我们所在的空间的维度没有关系，（经过复杂的特征转化之后的 $Z$ 空间的维度 $\tilde{d}$ 一般来说是很大的）。但是实际上我们上一篇中讲到其实是有关系的，隐藏在了我们使用二次规划时求解矩阵 $Q$ 的过程中。我们今天的目标是要得到一个能用特征转换还确实和 $Z$ 空间的维度没有关系的 $SVM$ 。即，我们的目标是要找一个不依赖于 $\tilde{d}$ 的 $SVM$ 算法。

1.2 - 对偶的SVM

m i n α s u b j e c t t o 1 2 α T Q D α - 1 T α y T α = 0; α n \geq 0, f o r n = 1, 2, \dots, N (26) (27) (28)

$\begin{align} \mathop {min} \limits_{\alpha} \quad & \frac12 \alpha^TQ_D\alpha - 1^T \alpha \\ subject\ to \quad & y^T\alpha = 0; \\ &\alpha_n \ge 0, \ for\ n = 1, 2, \cdots, N \end{align}$

该问题从变量的数量 $N$ 和约束的数量 $N+1$ 来看是和 $\tilde{d}$ 没有关系的，但是 $q_{n,m} = y_ny_mz_n^{T}z_m$ 是要在 $\tilde{d}$ 空间中做內积，即需要做长度为 $\tilde{d}$ 的两个向量 $z$ 的內积运算。所以在这里如果 $\tilde{d}$ 很大的话，那么这将是我们求解 $SVM$ 的一个瓶颈。

问题出在：我们要在 $Z$ 空间中做內积。
这可以分为两个步骤：

将 $x$ 做转换到 $z$ 空间， $z = \Phi(x)$ ；
- 再在 $z$ 空间中做內积。

我们的想法是：如果我们可以将这两个步骤合为一个的话，可能会算的快些。

1.3 - 二次转换下快速计算內积

我们首先看一个简单的例子，我们想要通过这个例子来看看，先进行转换再进行內积这样的步骤可不可以通过某些操作简化一点。二次多项式转换：

Φ_{2} (x_{1}, x_{2}, \dots, x_{d}) = (1, x_{1}, x_{2}, \dots, x_{d}, x_{1}^{2}, x_{1} x_{2}, \dots . x_{1} x_{d}, x_{2} x_{1}, x_{2}^{2}, \dots, x_{2} x_{d}, \dots, x_{d}^{2})

$\Phi_2(x_1, x_2,\cdots, x_d) = (1, x_1, x_2,\cdots, x_d, x_1^2, x_1x_2, \cdots. x_1x_d,\ x_2x_1,x_2^2, \cdots,x_2x_d, \cdots,x_d^2)$

这样原来在 $X$ 空间中的一个样本的特征 $(x_1, x_2, x_3)$ 经过以上的二次转换就变为了如下在 $Z$ 空间的向量 $(1, x_1, x_2, x_3, x_1x_1, x_1x_2, x_1x_3,x_2x_1, x_2x_2, x_2x_3,x_3x_1, x_3x_2, x_3x_3)$

考虑两个向量 $x, x'$ ，首先我们计算这两个向量经过特征转换之后的內积：

Φ 2 (x) T Φ 2 (x') = 1 + \sum i = 1 d x i x' i + \sum i = 1 N \sum j = 1 N x i x j x' i x' j = 1 + \sum i = 1 d x i x' i + \sum i = 1 N x i x' i \sum j = 1 N x j x' j = 1 + x T x' + (x T x') (x T x') (56) (57) (58)

$\begin{align} \Phi_2(x)^T\Phi_2(x') & = 1 + \sum_{i=1}^{d}x_ix_i'+\sum_{i=1}^N\sum_{j=1}^Nx_ix_jx_i'x_j' \\ & = 1 + \sum_{i=1}^{d}x_ix_i'+ \sum_{i=1}^N x_ix_i'\sum_{j=1}^Nx_jx_j' \\ & = 1 + x^Tx' + (x^Tx')(x^Tx') \end{align}$

既然这样，那么对于上述问题我们就可以先在 $X$ 空间算內积，然后加 $1$ 再加內积的平方就可以得到先做特征转化在做內积的结果。前者的复杂度为 $O(d)$ ，后者的复杂度为 $O(d^2)$

1.4 - 核函数

通过以上的操作我们完成了原来需要两步（先转换到 $Z$ 空间，再在 $Z$ 空间中做內积）才能得到的结果。即通过一个函数 $K_{\Phi}$ ，作用于 $X$ 空间中向量的內积就可以得到将 $x$ 通过转换 $\Phi$ 在 $Z$ 空间中得到的向量然后做內积的结果。

K_{Φ} (x, x^{'}) = Φ (x)^{T} Φ (x^{'}), 或 者 表 示 为 ： K_{Φ} (x^{T} x^{'}) = Φ (x)^{T} Φ (x^{'}) 更 贴 合 以 上 的 描 述

$K_{\Phi}(x, x') = \Phi(x)^T\Phi(x'), 或者表示为：K_{\Phi}(x^Tx') = \Phi(x)^T\Phi(x')更贴合以上的描述$

我们把这样的函数称为是核函数, 直观上理解，核函数就是将我们原来要做的两步：特征转化+高维空间中內积，合并为了一步：直接在低维空间中计算我们想要的结果。例如在刚刚的那个例子中我们得到的核函数为：

Φ 2 : K Φ 2 (x, x') = 1 + (x T x') + (x T x') 2

$\Phi_2:\ K_{\Phi_2}(x, x') = 1+ (x^Tx') + (x^Tx')^2$

有了核函数的定义之后，我们看看对于原来的对偶形式的 $SVM$ 来说有什么用呢？

计算二次项的系数 $Q$ ，可以看到 $q$ 是一个 $Z$ 空间中的內积： $q_{n,m} = y_ny_mz_n^{T}z_m = y_ny_mK(x_n, x_m)$
计算 $b$ ：选一个 $\alpha_s >0$ 的 $SV$ ： $b = y s - w T z s = y s - (\sum S V α n y n z n) z s = y s - \sum S V α n y n (z n z s) = y s - \sum S V α n y n K (x n, x s)$ $b = y_s - w^Tz_s = y_s - (\sum_{SV}\ \alpha_ny_nz_n)z_s = y_s - \sum_{SV} \ \alpha_ny_n(z_nz_s) = y_s - \sum_{SV} \ \alpha_ny_nK(x_n, x_s)$
对于一个测试样本 $x$ ，计算 $SVM$ 的分类结果：
$g S V M (x) = s i g n (w T Φ (x) + b) = s i g n (\sum S V α n y n z n Φ (x) + b) = s i g n (\sum S V α n y n K (x n, x) + b)$ $g_{SVM}(x) = sign(w^T\Phi(x)+b) = sign(\sum_{SV}\ \alpha_ny_nz_n\Phi(x)+b) = sign(\sum_{SV}\ \alpha_ny_nK(x_n, x)+b)$

这样我们所有需要在 $Z$ 空间中的內积运算都被核函数取代了。也就是说，到这里我就真正的实现了在上一篇中想要实现的目标： $SVM$ 和 $\tilde{d}$ 无关了。

1.5 - 带有核函数的硬间隔支撑向量机算法

Kernel Hard-Margin SVM Algorithm(Kernel SVM)

计算二次规划的中的二次项系数： $q_{n,m} = y_ny_mK(x_n, x_m)$
使用二次规划程序进行求解： $\alpha \longleftarrow QP(Q_D, p, A, c)$
找到一个支撑向量 $(x_s, y_s)\$ 计算偏置值： $b = y_s - \sum_{SV} \ \alpha_ny_nK(x_n, x_s)$
得到支撑向量机，对新的样本 $x$ 进行分类： $g_{SVM}(x) = sign(\sum_{SV}\ \alpha_ny_nK(x_n, x)+b)$

所以我们就得到了 $Kernel\ SVM$ ，就是将原来 $Dual\ SVM$ 中所有涉及到 $Z$ 空间內积的运算都使用 $Kernel$ 函数，这样就和 $\tilde{d}$ 没有关系了。

2 - 多项式核(Polynomial Kernel)

2.1 - 二次转换的核函数

上一小节使用了一个特殊的二次多项式转化导出了一个核函数。

二次项转化	对应的核函数
$\Phi_2(x) = (1, x_1, x_2,\cdots, x_d, x_1^2, \cdots,x_d^2)$	$K(x, x') = 1 + x^Tx' + (x^Tx')^2$
$\Phi_2(x) = (1, \sqrt2x_1, \sqrt2x_2,\cdots, \sqrt2x_d, x_1^2, \cdots,x_d^2)$	$K(x, x') = (1 + x^Tx')^2$
$\Phi_2(x) = (1, \sqrt{2\gamma}x_1, \sqrt{2\gamma}x_2,\cdots, \sqrt{2\gamma}x_d, \gamma x_1^2, \cdots,\gamma x_d^2)$	$K(x, x') = (1 + \gamma x^Tx')^2$

$K(x, x') = (1 + \gamma x^Tx')^2$ 是更为常用的形式，也更容易延伸到高次多项式，即将原始的內积做 $\gamma$ 的放缩之后加 $1$ 的平方。那么 $K(x, x') = 1 + x^Tx' + (x^Tx')^2 \$ 和 $\ K(x, x') = (1 + \gamma x^Tx')^2$ 有什么区别呢？相同的是它们都对应到了一个相同维度的空间；不同的是它们定义了不一样的內积运算，不同的內积代表不同的距离计算方法。不同的距离会影响到 $margin$ ，所以使用不同的转换，尽管是转换到了相同的空间中，可能也会得到不同的边界。通常我们会将 $K(x, x') = (1 + \gamma x^Tx')^2$ 直接称为 $K_2$ 。

2.2 - 使用不同的核函数

可以看到分隔超平面不同，虽然都是二次曲线。并且支撑向量也不同。所以换核函数，就是换几何定义，这样 $margin$ 的定义就会换掉。所以可能会得到不一样的结果。所以我们要仔细的对很函数做选择。就像我们以前仔细的对特征转换做选择，但是现在特征转换的部分包含在核函数中，所以我们要仔细的对核函数做选择。

2.3 - 多项式核(General Polynomial Kernel)

基于二次 $Kernel$ 出发，我们可以延伸出更一般的核函数：

K2(x,x′)=(ζ+γxTx′)2 withγ>0,ζ≥0 K 2 ( x , x ′ ) = ( ζ + γ x T x ′ ) 2 w i t h γ > 0 , ζ ≥ 0 $K_2(x, x') = (\zeta + \gamma x^Tx')^2\ with \gamma > 0, \zeta \ge 0$

K3(x,x′)=(ζ+γxTx′)3 withγ>0,ζ≥0 K 3 ( x , x ′ ) = ( ζ + γ x T x ′ ) 3 w i t h γ > 0 , ζ ≥ 0 $K_3(x, x') = (\zeta + \gamma x^Tx')^3\ with \gamma > 0, \zeta \ge 0$

⋯ ⋯ $\cdots$

KQ(x,x′)=(ζ+γxTx′)Q withγ>0,ζ≥0 K Q ( x , x ′ ) = ( ζ + γ x T x ′ ) Q w i t h γ > 0 , ζ ≥ 0 $K_Q(x, x') = (\zeta + \gamma x^Tx')^Q\ with \gamma > 0, \zeta \ge 0$

$SVM$ 加上多项式核就得到了多项式 $SVM$ 。现在我们就可以很容易的使用高次的转换，例如只是需要将 $Q$ 设置为 $10$ ，并且设置 $\gamma, \zeta$ 的取值。就可以得到一个 $10$ 次的特征转化下 $SVM$ 的结果。如果没有 $Kernel\ trick$ ，我们首先要将特征展成 $10$ 次空间中的特征，很多的计算量，很大的维度。另一个可能会考虑到的问题是，如果运用 $10$ 次的特征转换会不会出现 $overfitting$ ，有可能，但是 $SVM$ 本身的 $large\ margin$ 的特征会自动的帮助我们控制下复杂度。如下图是一个 $10$ 次的 $Kernel$ 做出的分界线，也就是 $10$ 次的特征转换的结果：

$Linear\ Kernel：K_1(x, x') = (0 + 1 \centerdot x^Tx')^1$ ，也就是不做任何的转化，这个时候可能没有必要使用 $Dual\ SVM$ ，直接使用原始的 $SVM$ 求解就好。

如果线性的支撑向量机已经可以做的很好了，那么我们就没有必要再使用非线性的 $SVM$ ，或者没有必要使用对偶形式的 $SVM$ ；如果线性的效果不是很好，再使用对偶形式的 $SVM$ ，然后挑选合适的核函数。这应该是我们考虑使用 $SVM$ 的最佳步骤。

3 - 高斯核Gaussian Kernel

3.1 - 做无限维的特征转换

上一节介绍了多项式核Polynomial Kernel。
现在我们设想一下，因为利用核函数我们可以“假装”做 $Z$ 空间的特征转换和內积，我们是不是可以做无限多维的特征转化呢？
在没有 $kernel$ 之前，如果我们有这个想法，那么我们就要把 $Z$ 空间中的所有的特征都算出来，但是这是无穷维度的，是算不完的，更不要说还得求內积了。但是现在因为有了 $Kernel\ trick$ ， $Kernel\ trick$ 可以代替特征的转换和內积运算，所以我们现在可以尝试考虑了。

考虑一个特别的例子：原始的样本只有一个维度，另外考虑一个特别的函数如下：
$K(x, x') = exp(-(x - x')^2)$
我们想要得到的结果是 $K(x, x')$ 其实是 $x, x'$ 分别转换后的內积，即 $K(x, x') = \Phi(x)\Phi(x')$ ，并且这个转换是 无限维的。

K (x, x') = e x p (- (x - x') 2) = e x p (- x 2 + 2 x x' - 2 x' 2) = e x p (- x 2) e x p (- x' 2) e x p (2 x x') = e x p (- x 2) e x p (- x' 2) \sum i = 0 \infty ( 2 x x ' ) i i ! = \sum i = 0 \infty e x p (- x 2) e x p (- (x') 2) 2 i i ! - - - \sqrt 2 i i ! - - - \sqrt x i (x') i = \sum i = 0 \infty (e x p (- x 2) 2 i i ! - - - \sqrt x i) (e x p (- (x') 2) 2 i i ! - - - \sqrt (x') i) = Φ (x) Φ (x') (66) (67) (68) (69) (70) (71) (72)

$\begin{align} K(x, x') & = exp(-(x - x')^2) \\ & = exp(-x^2+2xx'-2x'^2) \\ & = exp(-x^2)exp(-x'^2)exp(2xx') \\ & = exp(-x^2)exp(-x'^2)\sum_{i =0}^{\infty}\frac{(2xx')^i}{i!} \\ & = \sum_{i =0}^{\infty}exp(-x^2)exp(-(x')^2)\sqrt\frac{2^i}{i!}\sqrt\frac{2^i}{i!}x^i(x')^i \\ & = \sum_{i =0}^{\infty}\bigg(exp(-x^2)\sqrt\frac{2^i}{i!}x^i\bigg) \ \bigg(exp(-(x')^2)\sqrt\frac{2^i}{i!}(x')^i \bigg)\\ & = \Phi(x)\Phi(x') \end{align}$
（第三行到第四行的推到使用了泰勒公式。）
我们可以得到：

Φ (x) = e x p (- x 2) (1, 2 1 ! - - \sqrt x, 2 2 2 ! - - - \sqrt x 2 . \dots)

$\Phi(x) = exp(-x^2)(1, \ \sqrt{\frac{2}{1!}}x, \ \sqrt{\frac{2^2}{2!}}x^2. \cdots)$
也就是说

Φ(x) Φ ( x ) $\Phi(x)$ 是

x x $x$ 的一个无限多维的特征转换。而

K (x, x^{'})

$K(x, x')$ 计算了经过这个无限多维的转换之后的两个样本的內积。

到这里我们证明了，高斯函数中隐藏了一个无限维度的转换。也就说两个向量（这里我们推到的是一维的） $x$ 和 $x'$ 的 $K(x, x')$ 运算 $(K(x, x') = exp(-(x - x')^2) )$ 的结果就是这两个向量分别做一个无限维度的转换 $\Phi$ 之后再做內积的结果。

这样我们就可以把我们的特征映射到无限维。映射的方法是 $\Phi(x) = exp(-x^2)(1, \ \sqrt{\frac{2}{1!}}x, \ \sqrt{\frac{2^2}{2!}}x^2. \cdots)$ ，而在无限维中內积计算的方法就是 $K(x, x') = exp(-(x - x')^2)$ 。

更一般的情形，高斯核函数如下：

K (x, x') = e x p (- γ | | x - x' | | 2) w i t h γ > 0

$K(x, x') = exp(-\gamma||x - x'||^2)\ with\ \gamma > 0$

使用高斯核得到的 $SVM$ 的分隔超平面如下：

g S V M (x) = s i g n (\sum S V α n y n e x p (- γ | | x - x n | | 2) + b)

$g_{SVM}(x) = sign\bigg(\sum_{SV}\alpha_ny_nexp(-\gamma||x - x_n||^2)+ b\bigg)$
得到的分隔超平面是中心在

Support Vector S u p p o r t V e c t o r $Support\ Vector$ 上的高斯函数的线性组合。所以高斯核也被称为

Radial Basis Function (RBF) Kernel R a d i a l B a s i s F u n c t i o n ( R B F ) K e r n e l $Radial\ Basis\ Function\ (RBF)\ Kernel$ 。

3.2 - 高斯核的表现

使用不同的高斯核 $(\gamma)$ 的结果：

可以看到如果参数选择的不好的话，也有可能会 $overfit$ ，虽然有 $large\ margin$ 的保证。所以我们也需要认真的选择参数 $\gamma$ 。通常不建议使用太大的 $\gamma$ ，事实上，当设置太大的 $\gamma$ 的时候， $Kernel(x, x') = |[x = x']|$ ，因为当 $x = x'$ 的时候， $Kernel(x, x') = 1$ 和 $\gamma$ 没有关系；当 $x \ne x'$ 的时候， $Kernel(x, x') = 0$ 。这样就好像这个分类器只是记住了每一个样本的特征。

4 - 核函数的选择Comparison of Kernels

现在简要记录下各个 $Kernal$ 的优劣势，以便以后做选择的时候参考。

4.1 - 线性核：Linear Kernel

K 1 (x, x') = (0 + 1 x T x')

$K_1(x, x') = (0 + 1\ x^Tx')\$ 我们称之为线性核。实际上就是不做任何的转换。即

K(x,x′)=xTx′2 K ( x , x ′ ) = x T x ′ 2 $K(x, x') = x^Tx'^2$ ，可以使用

Dual SVM D u a l S V M $Dual\ SVM$ ，或者是

primal SVM p r i m a l S V M $primal\ SVM$ 来求解。

优势：

简单，安全，应该是做 $SVM$ 首先要尝试的方法。
不使用对偶问题，所以不用计算 $Q$ 矩阵。
可解释性， $w$ 会告诉你每一个特征的权重。

劣势：

如果数据不是线性可分的，那么不可以使用。

4.2 - 多项式核：Polynomial Kernel

K (x, x') = (γ + ζ x T x') Q

$K(x, x') = (\gamma + \zeta x^Tx')^Q$

优势

比起线性的 $SVM$ 来说限制更少，线性的 $SVM$ 做不了的事情，说不定通过一个二次转换，三次转换，十次转换就可以做的很好。
通过参数 $Q$ 可以带入主观的对于数据的先验的认识。

劣势

当参数 $Q$ 很大，即你想要做很复杂的特征转换，这个时候会出现计算上的问题：
- $|\gamma + \zeta x^Tx'| < 1: K \longrightarrow 0$
- $|\gamma + \zeta x^Tx'| > 1: K \longrightarrow big$
有太多的参数需要指定 $(\gamma, \zeta, Q)$ 。

通常用于比较小的 $Q$ 。如果需要的转换特别的低次的时候，例如说需要二次的转换或者是三次的转换，其实可以直接对 $Z$ 空间进行展开，然后在使用 $Linear\ SVM$ 来解原始问题通常是更好的（也就是说不解 $Dual\ SVM$ ），尤其是在 $\tilde{d}$ 不是很大的情况下。

4.3 - 高斯核：Gaussian Kernel

K (x, x') = e x p (- γ | | x - x' | | 2)

$K(x, x') = exp(-\gamma||x - x'||^2)$

优势

能够应付非常复杂的数据，做出非常复杂的边界。
只需要确定一个参数 $\gamma$ 。

劣势

可解释性差。
算 $Q_D$ 矩阵要花费大量的气力。
参数选择失败的话会 $overfit$ 。

4.4 - 其他的核

可以说 $kernel$ 代表的是 $x$ 和 $x'$ 转换之后在 $Z$ 空间的相似性。

一个函数可以称之为核的必要条件是：

对称性。

矩阵 $K$ 要是半正定的，其中的每一个元素是 $k_{ij} = K(x_i, x_j)$ 。
这两个条件其实不仅仅是必要条件，也是充分条件。所以一个函数如果是核函数的话，就需要满足以上的两个条件，这两个条件也被称为是 $Mercer's\ condition$ 。

5 - 小结

本篇介绍了 $Kernel\ SVM$ ，首先提出了核技巧，将我们原来需要两步（先特征转换，再计算內积）才能做完的事情利用核函数可以简单的完成。然后介绍了多项式核和高斯核，其中高斯函数中包含了一个无限维的特征转换。最后对不同的 $Kernel$ 做出了比较。线性的 $SVM$ 有比较高的效率，高斯的 $SVM$ 可以找到比较复杂的边界线应对比较复杂的数据。
之前我们考虑的是要将数据绝对正确的分类（在转换之后的 Z <script type="math/tex" id="MathJax-Element-928">Z</script>空间也要是线性可分的）。这样可能会造成一定的问题，比如说可能会去过拟合那些噪声。之后我们将讨论怎么解决这些问题。