【机器学习笔记】SVM part2: 核函数与SMO算法

最新推荐文章于 2023-09-26 21:21:05 发布

Preke

最新推荐文章于 2023-09-26 21:21:05 发布

阅读量2.1k

点赞数 1

分类专栏：机器学习文章标签： svm 机器学习

本文链接：https://blog.csdn.net/u013398398/article/details/77823996

版权

机器学习专栏收录该内容

13 篇文章 0 订阅

订阅专栏

回顾我们之前的问题：
之前我们说到，假设我们了 $\alpha$ , 又有样本点数据，我们很容易由 $w=\sum_{i=1}^m\alpha_iy^{(i)}x^{(i)}$ 得出 $w$ , 同时也求得了 $b$

那么就得到了这个分类面 $w^Tx+b$ ,我们换一种表示方法：

w T x + b = (\sum i = 1 m α i y (i) x (i)) T x + b = \sum i = 1 m α i y (i) < x (i), x > + b

$w^Tx+b=\begin{pmatrix}\sum_{i=1}^m\alpha_iy^{(i)}x^{(i)}\end{pmatrix}^Tx+b\\=\sum_{i=1}^m\alpha_iy^{(i)}<x^{(i)},x>+b$

这里我们可以看出，新的数据点只需与那些 $\alpha_i =0$ 的临界点做内积，便可以得到分类结果。

核函数（Kernels)

先说一下直观理解吧（不一定正确，仅作直观理解），核函数就是把低维特征映射到高维，从而使得在低维情况下线性不可分的数据在高维情况下有可能能够找到那个分类面

特定情况下，如果我们需要，可以将一个一维特征加以变换成多维
比如说要拟合曲线的时候，我们可以用一个自变量的多次方程去拟合
比如在一个回归问题中，观察到 $y$ 可以用关于 $x$ 的 3次多项式来拟合
就可以用如下变换，将 $x$ 扩展到高维，使得 $y$ 成为一个关于 $\phi(x)$ 的函数：

ϕ (x) = ⎡ ⎣ ⎢ x x 2 x 3 ⎤ ⎦ ⎥

$\phi(x)= \begin{bmatrix} x\\x^2\\x^3 \end{bmatrix}$

如果有原来变量的内积，如 <x,z> <script type="math/tex" id="MathJax-Element-14"> </script> , 那么映射之后为 <ϕ(x),ϕ(z)> <script type="math/tex" id="MathJax-Element-15"><\phi(x), \phi(z)></script> , 那么这个核函数的形式化表出就为：

K (x, z) = ϕ (x) T ϕ (z)

$K(x,z)=\phi(x)^T\phi(z)$

这里只是简单列举一个形式化表出的例子，没有直接关联原问题，但是这里可以理解，我们可以通过这个和函数，让SVM学习更高维度的特征

这里还产成了一个问题：是不是每一个核函数都能表出为类似 $\phi(x)^T\phi(z)$ 的形式呢？

其实我初步的思考为，只有在原低维特征向量有做内积的运算时，我们这样构造和转化会方便

（好像有点废话，因为后面看到高斯核的时候在想是不是也能转化…不过是可以转化的，高斯核将低维特征转化成了无线维的特征）

Andrew 在课上讲了这样一句话：每当你在原问题中遇到 <script type="math/tex" id="MathJax-Element-18"> </script> ，也就是内积的形式时，你都可以把它转化成 $K(x,z)$ ，当你在做这个转化的时候，你就将低维特征映射到了高维。

嗯，学到后面就清晰了，这个就是核函数有效性的问题

这里说明一个核函数减少计算复杂度的例子：

假设， $x,z$ 都是 $n$ 维向量, 核函数为： $K(x,z)=(x^Tz)^2$ , 整理：

$K(x,z) = \sum_{i=1}^n\sum_{j=1}^n(x_i,x_j)(z_i,z_j)=\phi(x)^T\phi(z)$

不要疑惑，这里的 $\phi(x)$ 并不是上文的，而是如下：

$i f n = 3 :$ $if \quad n = 3:$

$ϕ (x) = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ x 1 x 1 x 1 x 2 . . . x 3 x 3 ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥$ $\phi(x)=\begin{bmatrix}x_1x_1\\x_1x_2\\.\\.\\.\\x_3x_3\end{bmatrix}$

显然， $\phi(x)$ 有 $n^2$ 项，所以计算复杂度为 $O(n^2)$ ;

但是如果我们直接计算 $K(x,z)=(x^Tz)^2$ 这里的复杂度就变成了 $O(n)$

这里的理解：虽然我们还是用映射之后的高维特征来让模型学习，但是由于这个核函数的存在，我们可以从低维特征（简单的计算）同样得到高维特征的结果，这就是它减少复杂度的原因

这是一个简单的核函数，接下来就会介绍一些其他常用的核函数：

$K(x,z)=(x^Tz+c)^2\\ \quad\quad\quad=\sum_{i,j=1}^n(x_ix_j)(z_iz_j)+\sum_{i=1}^n(\sqrt{2c}x_i)(\sqrt{2c}z_j)+c^2$

这个核函数对应的 $\phi(x)$ 为：

$i f n = 3 :$ $if \quad n = 3:$

ϕ (x) = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ x 1 x 1 x 1 x 2 . . . x 3 x 3 2 c - - \sqrt x 1 2 c - - \sqrt x 2 2 c - - \sqrt x 3 c ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥

$\quad\quad\quad \phi(x)=\begin{bmatrix}x_1x_1\\x_1x_2\\.\\.\\.\\x_3x_3\\\sqrt{2c}x_1\\\sqrt{2c}x_2\\\sqrt{2c}x_3\\c\end{bmatrix}$

如果继续扩展，扩展到 $K(x,z)=(x^Tz+c)^d$ ，对应的 $\phi(x)$ 的维度为 $C_{n+d}^d$ ， $n$ 是 $x, z$ 的维度

为什么介绍这样一个一般化的向量内积形式的核函数呢？

这里有一个直观的理解（不一定严格正确）

可以看到，计算向量的内积，其实就是在衡量向量的相似度

所以基于这样一种形式，如果两个特征向量，关联性很大，这样形式的核函数也会很大

当然这里暂时忽略 $\phi(x)$ 对相似性的影响，所以说不一定严格正确

$K(x,z)=exp\begin{pmatrix}-\frac{||x-z||^2}{2\sigma^2}\end{pmatrix}$

这个叫做，高斯核函数（因为形式很像高斯分布，也叫做径向基函数（Radial Basis Function)

能够把原始特征映射到无限维。

那我们现在来看一下 $x,z$ 的相似性：
- 如果 $x,z$ 相似： $||x-z|| \approx 0$ ， $K(x,z)$ 趋向1
- 如果 $x,z$ 相差很多： $||x-z|| \gg 0$ ， $K(x,z)$ 趋向0
这里理解的时候可以想象正态分布的钟形图
1. 参数 $\sigma$ 是什么？
  
  在这里是没有标准差的含义的，只是一个参数而已，我们可以用交叉验证调整出最好的参数

核函数有效性

这里就是上文中讨论的问题，是不是每一个核函数 $K(x,z)$ 都能表出为 $\phi(x)^T\phi(z)$ 的形式呢？

先给出判定定理吧：

Mercer 定理

如果函数 $K$ 是 $R^n*R^n\rightarrow R$ 的映射，即两个 $n$ 维向量映射到实数域，那么 $K$ 是一个有效核函数等价于对 $\{x^{(1)},x^{(1)}...,x^{(m)}\}$ ，其对应的核函数矩阵是对称半正定的。

其中涉及到两个概念：核函数矩阵，对称半正定

核函数矩阵：

给定 $m$ 个训练样本（特征向量） $\{x^{(1)},x^{(1)}...,x^{(m)}\}$ ，对任意的 $x^{(i)}, x^{(j)}$ 带入 $K$ ，得到 $K_{i,j} = K(x^{(i)}, x^{(j)})$ ，得到一个 $m*m$ 的矩阵如下：

⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ K 1, 1 K 2, 1 ⋮ K m, 1 K 1, 2 K 2, 2 ⋮ k m, 2 \dots \dots ⋱ \dots K 1, m K 2, m ⋮ K m, m ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥

$\begin{bmatrix}K_{1,1}& K_{1,2}& \cdots&K_{1,m}\\K_{2,1}&K_{2,2}& \cdots&K_{2,m}\\\vdots&\vdots&\ddots&\vdots\\K_{m,1}&k_{m,2}&\cdots&K_{m,m}\end{bmatrix}$

就是核函数矩阵，也用 $K$ 来表示

对称半正定，这里先不展开讲，就是一个矩阵的性质，简单理解呢，就是：

如果是一个合法的核函数，即 $K(x,z)$ 能表出为 $\phi(x)^T\phi(z)$

首先如上矩阵肯定是对称的，因为 $K(x,z) = K(z,x)$
半正定，对于任意的 $m$ 维向量 $z$ ， $z^TKz\ge0$

核函数就先到这吧…

正则化，不可分情况

如果数据线性可分，可以直接用线性分类器解决
如果数据线性不可分，用核函数映射到高维尝试找到分类面
如果用了核函数也没找到…那就允许一些错误样例吧

image_1bp0kkllk1b9g1fer1r1d1vcg1mq69.png-17.5kB

上图中，一个离群点的出现就会使分类面偏移很多，这样分类面很容易过拟合；更有甚者，有些离群点在另一个类中导致分类面不可分，所以我们需要正则化，也就是说，允许一小部分错误分类点，但是对于这些错误分类点，我们在目标函数中加上一些惩罚项

所以设计一个新的模型：

m i n γ, w, b 1 2 | | w | | 2 + C \sum i = 1 m ξ i s . t . y (i) (w T x (i) + b) \geq 1 - ξ i, i = 1, . . ., m ξ i \geq 0, i = 1, . ., m .

$min_{\gamma ,w,b}\quad\frac{1}{2}||w||^2+C\sum_{i=1}^m\xi_i \\ \quad\quad\quad\quad\quad\quad\quad\quad s.t. \quad y^{(i)}(w^Tx^{(i)}+b)\geq1-\xi_i ,\quad\quad i=1,...,m\\\quad\quad\xi_i\geq0,\quad\quad i=1,..,m.$

引入一个松弛变量 $\xi$
从限制条件来看，我们允许一部分点的函数间隔小于1甚至有可能是负数，对于这些点，对应的 $\xi_i$ 会很大(可以通过限制条件计算的）,那么在目标函数中表现的就很明显，这样求目标函数的最小值的约束也就会体现出来。同时， $C$ 是离群点的权重，也是一个可以调的参数

这种情况也称为 L1软间隔，因为正则化项是 L1-norm;

再按照之前的方法求解：
拉格朗日公式就变成了：

L (w, b, ξ, α, r) = 1 2 w T w + C \sum i = 1 m ξ i - \sum i = 1 m α i [y (i) (w T x (i) + b) - 1 + ξ i] - \sum i = 1 m r i ξ i .

$\mathcal{L}(w,b,\xi,\alpha,r)=\frac{1}{2}w^Tw+C\sum_{i=1}^m\xi_i-\sum_{i=1}^m\alpha_i[y^{(i)}(w^Tx^{(i)}+b) - 1+\xi_i]-\sum_{i=1}^mr_i\xi_i.$
有两个不等式约束,所以

αi,ri $\alpha_i,r_i$ 都为拉格朗日乘子
对偶问题为：

max α W (α) = \sum i = 1 m α i - 1 2 \sum i, j = 1 m y (i) y (j) α i α j < x (i), x (j) > s . t . 0 \leq α i \leq C, i = 1, . . ., m \sum i = 1 m α i y (i) = 0

$\max_\alpha\quad W(\alpha)=\sum_{i=1}^m\alpha_i-\frac{1}{2}\sum_{i,j=1}^my^{(i)}y^{(j)}\alpha_i\alpha_j<x^{(i)},x^{(j)}>\\s.t.\quad 0\leq\alpha_i\leq C,\quad i=1,...,m\\\sum_{i=1}^m\alpha_iy^{(i)}=0$
与之前对偶问题的区别只有第一个限制条件变成了

0≤αi≤C $\quad 0\leq\alpha_i\leq C$ ,
同时，

b $b$ 的求解也发生了变化，在后面的章节中会解释；

image_1bp353tpi1res1bsaqlrt8i17c69.png-22.2kB
讲义中给出如上三个公式，并且吴恩达也没有详细讲，只说是用KKT条件推导来的，
我就自己翻了资料理解了一下，参考周志华的《机器学习》和李航的《统计学习方法》

如果要得到上述对偶问题，需要满足KKT条件：

分别对三个变量 $w,b,\xi$ 求偏导为 0, 就有：

w = \sum i = 1 m α i y i x i \sum i = 1 m α i y i = 0 α i + r i = C

$w=\sum_{i=1}^m\alpha_iy_ix_i\\\sum_{i=1}^m\alpha_iy_i=0\\\alpha_i+r_i=C$
对拉格朗日公式用一下K.K.T.条件，得到：

⎧ ⎩ ⎨ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ α i \geq 0 r i \geq 0 y (i) (w T x (i) + b) - 1 + ξ i \geq 0 α i (y (i) (w T x (i) + b) - 1 + ξ i) = 0 ξ i \geq 0 r i ξ i = 0

$\left\{ \begin{aligned} \alpha_i\geq0 \\r_i\geq0\\y^{(i)}(w^Tx^{(i)}+b)-1+\xi_i\geq0\\\alpha_i(y^{(i)}(w^Tx^{(i)}+b)-1+\xi_i)=0\\\xi_i\geq0\\r_i\xi_i=0 \end{aligned} \right.$

在这里：

$\alpha_i>0$ 的那些点，和以前一样，还是支持向量，不过这里呢，是这个软间隔分类器的支持向量(包括在最大间隔边界，和一些函数间隔小于1的点）;
如果 $\alpha_i<C$ ，那么 $r_i>0$ , 接着就有 $\xi_i=0$ , 这些点恰好就是在最大分类间隔边界上的支持向量;
如果 $\alpha_i=C$ , 则有 $r_i = 0$ , 此时：
- 如果 $\xi_i < 1$ ，则样本落在最大间隔内部
- 如果 $\xi_i>1$ , 则样本就被错误分类
- 如果 $\xi_i = 1$ ，样本就落在超平面上

这里，李航的《统计学习方法》里面提到我们可以用 $\frac{\xi_i}{||w||}$ 来表示样本到最大分类间隔边界的距离，也是很巧妙。

对于这种SVM，假设我们求到了分类超平面（其实就是那些支持向量）在我们分类的时候，还是通过本文开头的那个判别方法来分类

坐标上升法

其实是为了引出SMO的一个过渡方法

其实原理很简单，假设要求：

max α W (α 1, α 2, . . ., α m)

$\max_\alpha W(\alpha_1,\alpha_2,...,\alpha_m)$
我们每次控制其他变量，只在一个变量的维度求最大值，得到之后，再在下一个变量的维度来求，循环直到最优解。伪码表示如下：
image_1bp35g42uskc18271bji14s17eqm.png-20.6kB

SMO算法

被称为最快的二次规划优化算法, 有点6
特别在用于线性SVM和数据稀疏时性能更优
原始paper: 《 Sequential Minimal Optimization A Fast Algorithm for Training Support Vector Machines》

之前说最后要解决这个对偶问题：

max α W (α) = \sum i = 1 m α i - 1 2 \sum i, j = 1 m y (i) y (j) α i α j < x (i), x (j) > s . t . 0 \leq α i \leq C, i = 1, . . ., m \sum i = 1 m α i y (i) = 0

x(i),y(i),C $x^{(i)}, y^{(i)}, C$ 都是已知的，所以我们的问题就是在参数

{α1,α2,...,αm} $\{\alpha_1,\alpha_2,...,\alpha_m\}$ 上求

W $W$ 的最大值
按照坐标上升的思路，我们是要固定其他维度，先选取一个参数做优化的，但是，由于我们有第二个等式约束，是无法只变动一个参数而其他参数都不改变的，所以我们至少也要选两个参数优化才可以。
算法思路如下：
image_1bp39pgg3bnf17jv9v81tp1sjo9.png-60kB

image_1bp39pgg3bnf17jv9v81tp1sjo9.png-60kB

循环内：
1. 用启发式算法去选取一对

αi,αj $\alpha_i, \alpha_j$ ，控制其他

α $\alpha$ 不变
2. 通过

αi,αj $\alpha_i, \alpha_j$ 优化得到的

W(α) $W(\alpha)$ 更新原来的值

这里我们有这个约束： $\sum_{i=1}^m\alpha_iy^{(i)}=0$ , 假设我们选取 $\alpha_1, \alpha_2$ , 我们就能够得到：

α 1 y (1) + α 2 y (2) = - \sum i = 3 m α i y (i) = ζ

$\alpha_1y^{(1)}+\alpha_2y^{(2)} = -\sum_{i=3}^m\alpha_iy^{(i)} = \zeta$
其中

ζ $\zeta$ 是一个固定值，因为我们固定后面的参数不变
我们可以显式的把这个约束条件表示成一条直线，如下：
image_1bp3cpicr1gsikhahi81ucajofm.png-16.3kB

横轴为 $\alpha_1$ ，纵轴为 $\alpha_2$ ， $0\leq\alpha_i\leq C$ 对应了 $\alpha$ 对应在这个方框内
其中的 L，H 就是 $\alpha_2$ 的 lowerbond 和 upperbond

继续我们可以得到： $\alpha_1 = (\zeta-\alpha_2y^{(2)})y^{(1)}$ (这里因为 $y^{(i)}\in\{1,-1\}$ )是类别标签，所以乘和除是一样的，那么目标问题就表示成：

W (α 1, α 2, . . ., α m) = W ((ζ - α 2 y (2)) y (1), α 2, . . ., α m) .

$W(\alpha_1,\alpha_2,...,\alpha_m)=W((\zeta-\alpha_2y^{(2)})y^{(1)}, \alpha_2,...,\alpha_m).$
这就变成了对一个变量

α2 $\alpha_2$ 的优化问题，带入

W(α) $W(\alpha)$ 的公式，可以将

W(α) $W(\alpha)$ 表示成类似

aα22+bα2+c $a\alpha_2^2+b\alpha_2+c$ 的形式, 其中

L≤α2≤H $L\leq \alpha_2 \leq H$

我们用 $\alpha_2^{new,unclipped}$ 来表示上述二次规划得到的最优值对应的 $\alpha_2$ , 我们容易得到 $\alpha_2$ 的更新规则：
image_1bp3gbbne3r1gb813nb1f7naf1p.png-22.5kB

得到之后再求出 $\alpha_1^{new}$ 就好了。

后记

至此，我们还有几个问题：

上面提到说，软间隔中 $b$ 的更新规则变了，如何变？
SMO中说到的启发式规则寻找 $\alpha_i, \alpha_j$ ，（感觉应该能简化一些计算量）
暂时只能先去参考JerryLead大神的笔记了…

说实话，写到这里很累…
一度怀疑为什么网上有这么详尽的笔记，自己还要再写一遍…
才感觉到这才只是一个开始，SVM的世界好大，完全弄懂一个算法真的不容易…
以 JerryLead 大神的一个深入浅出的总结来暂时结束吧…毕竟以后还有代码实现不是~
image_1bp3h9i15h82ovh1qka17m91dqh16.png-354.5kB

Preke

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
【机器学习笔记】SVM part2: 核函数与SMO算法

回顾我们之前的问题：之前我们说到，假设我们了 α\alpha, 又有样本点数据，我们很容易由 w=∑mi=1αiy(i)x(i)w=\sum_{i=1}^m\alpha_iy^{(i)}x^{(i)} 得出 ww, 同时也求得了 bb那么就得到了这个分类面 wTx+bw^Tx+b ,我们换一种表示方法： wTx+b=(∑i=1mαiy(i)x(i))Tx+b=∑i=1mαiy(i)<x(i)
复制链接

扫一扫