最全面的SVM介绍（从拉格朗日对偶到SMO算法）

菜鸟炼丹师

已于 2022-06-12 21:23:49 修改

阅读量1.1k

点赞数 15

CC 4.0 BY-SA版权

分类专栏：机器学习文章标签：支持向量机机器学习算法

于 2022-05-30 21:09:40 首次发布

本文链接：https://blog.csdn.net/chenjunheaixuexi/article/details/124945810

机器学习专栏收录该内容

17 篇文章

订阅专栏

本文深入介绍了支持向量机（SVM）的基本概念，包括拉格朗日对偶变换、经典SVM、带松弛变量的SVM和核函数的应用。SVM通过找到最大间隔的超平面来实现二分类，并通过核函数处理非线性问题。此外，还探讨了SVM如何扩展到多类别分类，如一对多（OVR）和一对一（OVO）策略。文章最后简要介绍了SVM的求解过程和凸函数的相关概念。

SVM主要用来处理二分类问题，其也可用以用来解决多分类问题与回归问题，只不过不常用。其目标是找到一个最优的分隔平面，来使得不同类别之间的距离最大化。核心思想是将问题转化成凸二次规划求解的问题。

一、拉格朗日对偶变换

想要搞清楚SVM问题是如何进行转化的，首先就要搞清楚什么是拉格朗日对偶变换，我们这里简要的叙述一下。其核心思想是将求解最优问题转化成为相对容易求解的问题。

原始问题
假设我们研究的优化问题如下：

$Minimizef_0(x)$

$s.t.\quad f_i(x)\le 0\quad \quad i= \{1,...,K\}$
$g_j(x)= 0\quad \quad j= \{1,...,L\}$

同时我们假设满足约束条件的最优解为 $x^*$ ， $p^*=f_0(x^*)$

极小极大问题
那么根据拉格朗日函数我们可以构造出：
$L(x,\alpha ,\beta)=f_0(x)+\sum_{i=1}^K\alpha_if_i(x)+\sum_{j=1}^L\beta_jg_j(x)\quad\quad\quad \alpha \ge0$

拉格朗日函数是一个关于 $x,\alpha$ 和 $\beta$ 的函数，其中 $x$ 是原问题的自变量， $\alpha,\beta$ 被称为拉格朗日乘子，是标量。

其中 $f_0(x)$ 是原优化问题的目标函数， $f_i(x)$ 为原优化问题的不等式约束项， $g_i(x)$ 为原问题的等式约束项。

我们构造函数 $\theta_p(x)$ 如下：
$\theta_p(x)=\max\limits_{\alpha,\beta}L(x,\alpha,\beta)$

假设存在违反约束条件的样本 $x$ ，即存在某个 $i$ 使得 $f_i(x)>0$ 或者 $g_i(x)\neq0$ ，如果 $f_i(x)>0$ ，那么我们可以使得 $\alpha_i$ 的取值为 $+\infty$ ,那么 $\theta_p(x)$ 的取值也为 $+\infty$ ；如果 $g_i(x)\neq0$ ，同理我们使得 $\beta_i$ 为 $+\infty$ ， $\theta_p(x)$ 的取值同样为 $+\infty$ 。即：
$\theta_p(x)=\max\limits_{\alpha,\beta}[f_0(x)+\sum_{i=1}^K\alpha_if_i(x)+\sum_{j=1}^L\beta_jg_j(x)]=+\infty$
但如果样本 $x$ 满足约束条件，即 $f_i(x)\le0$ 并且 $g_i(x)=0$ ，那么当 $\alpha_i$ 的取值为0时，使得 $\theta_p(x)=f_0(x)$ ，即：
$\theta_p(x)=\max\limits_{\alpha,\beta}[f_0(x)+\sum_{i=1}^K\alpha_if_i(x)+\sum_{j=1}^L\beta_jg_j(x)]=f_0(x)$
因此我们可以得到：
$\theta_p(x)=\left\{ \begin{array}{rcl} +\infty & & {x不满足原始约束条件}\\ f_0(x) & & {否则} \end{array} \right.$
因此：
$p^*=\min\limits_{x}f_0(x)=\min\limits_x\theta_p(x)=\min\limits_x\max\limits_{\alpha,\beta}L(x,\alpha,\beta)$
被称为广义拉格朗日函数的极小极大问题。

极大极小问题
我们构造函数 $\theta(\alpha,\beta)=\min\limits_xL(x,\alpha,\beta)$ ，同时令：
$d^*=\max\limits_{\alpha,\beta}\min\limits_xL(x,\alpha,\beta)$
称为原始问题的对偶问题，其中

$d^*\le p^*$
被称为弱对偶，是一定成立的，感兴趣的可以自己找一下统计学原理看看推导过程，这里就不进行推导了。

当满足一定情况时， $d^*=p^*$ ，我们称其为强对偶。

对于原始问题及其对偶问题，假设函数 $f_0(x)$ 和 $f_i(x)$ 是凸函数， $g_i(x)$ 是仿射函数，且不等式约束 $f_i(x)$ 是严格可行的，即存在 $x$ ，对所有 $f_i(x)$ 有 $f_i(x)\le0$ ，则存在 $x^*,\alpha^*,\beta^*$ ，使 $x^*$ 是原始问题的解， $\alpha^*,\beta^*$ 是对偶问题的解的充分必要条件是 $x^*,\alpha^*,\beta^*$ 满足下面的Karush-Kuhn-Tucker(KKT)条件：
$\frac{\partial L(x^*,\alpha^*,\beta^*)}{\partial x_i}=0,\quad i=1,...d$ $\frac{\partial L(x^*,\alpha^*,\beta^*)}{\partial \beta_{i}}=0,\quad i=1,...,l$ $\alpha_if_i(x^*)=0,\quad i=1,...,k$ $f_i(x^*)\le0,\quad i=1,...,k$ $\alpha_i\ge0,\quad i=1,...,k$

二、经典的SVM

在这里插入图片描述
经典的SVM主要用来处理线性可分的问题。如图所示，对于两类样本点，我们期望找到一条合适的分隔线，使其到两个类别支撑向量的距离最大，同时，到两个支撑向量的距离相同。

这里由于分隔线到两条支撑向量的距离相同，而且分隔线函数为 $w x + b = 0$ ，因此我们不妨设两条支撑向量的函数分别为 $w x + b = 1$ 和 $w x + b = - 1$ 。因此我们可以得到:
$w^Tx_1+b)-(w^Tx_2+b)=2$ $w^T(x_1-x_2)=2$
向量 $a$ 与向量 $b$ 的内积可以看做 $a$ 的模与 $b$ 在 $a$ 方向上投影的乘积，即 $a\cdot b=||a|||_2|b||_2\cos\theta$
因此我们可以的得到：
$||w||_2||x_1-x_2||_2\cos\theta=2$ $||x_1-x_2||\cos\theta=\frac{2}{||w||_2}=d_1+d_2$
我们的目的是使得两个支撑向量之间的距离 $d$ 达到最大，即:
$\max\limits_{w,b}\frac{2}{||w||_2}$
按照机器学习求最小的习惯，将其转化成最小值问题，我们求 $min||w||^2$ 的效果是一样的

同时对于这里的二分类问题，我们假设其标签为1或-1，因此对于在支撑向量上的点，满足 $y^{(i)}(w^Tx^{(i)}+b)=1$ ，对于不在支撑向量上的点，其一定满足 $y^{(i)}(w^Tx^{(i)}+b)\ge1$ ，因此我们的到最后的目标函数：
$\min\limits_{w,b}\frac{1}{2}||w||^2$

$s.t.y^{(i)}(w^Tx^{(i)}+b)\ge1,\quad i=1,...,n$

为了满足拉格朗日对偶变换，我们可以将约束条件写为：

$g_i(w)=-y^{(i)}(w^Tx^{(i)}+b)+1\le0$

将问题构造成拉格朗日函数为：

$\min\limits_{w,b}\max\limits_{\alpha}L(w,b,\alpha)=\frac{1}{2}||w||^2-\sum\limits_{i=1}^n\alpha_i[y^{(i)}(w^Tx^{(i)}+b)-1]$

由于这里原函数为凸函数，同时其限制条件为线性函数也为凸函数，因此我们可以将其进行KKT条件的构造，转化成对偶问题：
$\nabla_wL(w,b,\alpha)=w-\sum\limits_{i=1}^n\alpha_iy^{(i)}x^{(i)}=0$ 可得： $w=\sum\limits_{i=1}^n\alpha_iy^{(i)}x^{(i)}$ $\nabla_bL(w,b,\alpha)=\sum\limits_{i=1}^n\alpha_iy^{(i)}=0$
我们将 $w$ 打带入拉格朗日化的原问题可得：
$\begin{aligned}L(w,b,\alpha)&=\frac{1}{2}w^Tw-w^T\sum\limits_{i=1}^n\alpha_iy^{(i)}x^{(i)}-b\sum\limits_{i=1}^n\alpha_iy^{(i)}+\sum\limits_{i=1}^n\alpha_i\\ &=\sum\limits_{i=1}^n\alpha_i-\frac{1}{2}\sum\limits_{i,j=1}^n\alpha_i\alpha_jy^{(i)}y^{(j)}x^{(i)}(x^{(j)})^T \end{aligned}$

此时问题就转变成了关于 $\alpha$ 的函数，构造dual得：
$\max\limits_\alpha W(\alpha)=\sum\limits_{i=1}^n\alpha_i-\frac{1}{2}\sum\limits_{i,j=1}^n\alpha_i\alpha_jy^{(i)}y^{(j)}x^{(i)}(x^{(j)})^T$ $s.t.\quad \alpha_i\ge0,\quad i=1,..,n$

$\sum\limits_{i=1}^n\alpha_iy^{(i)}=0$

同时其要满足KKT条件如下：
$\alpha_ig_i(w^*)=0,\quad i=1,...,k$ $g_i(w^*)\le0,\quad i=1,...,k$

由于该问题为二次规划问题，所以一定存在最优解 $\alpha*=(\alpha_1^*,...,\alpha_n^*)$ ，那么就可以计算原始问题的最优解 $w^*=\sum\limits_{i=1}^n\alpha_i^*y^{(i)}x^{(i)}$ ，同时如果 $\alpha_i^*\ne0$ 的话，那么根据KKT条件， $y^{(i)}(w^Tx^{(i)}+b)+1=0$ ，其中 $y\in\{1,-1\}$ ,因此可得 $b^*=y^{(i)}-\sum\limits_{i=1}^n\alpha_i^*y^{(i)}x^{(i)}$ 。

训练结束之后，每来一个新的数据 $x$ 我们便可以对其进行预测：
$\begin{aligned}y&=sign(w^Tx+b)\\ &=sign((\sum\limits_{i=1}^n\alpha_iy^{(i)}x^{}(i))^Tx+b)\\ &= sign(\sum\limits_{i=1}^n\alpha_iy^{(i)}<x^{(i)},x>+b)\end{aligned}$
其中 $s i g n$ 为阶跃函数：
$sign(x)=\left\{ \begin{array}{rcl} 1 & & {x>0}\\ 0 & & {x=0}\\ -1 & &{x<0} \end{array} \right.$
这里看似每来一个数据，要计算其分类需要同所有样本数据进行一次计算，但实际上有KKT条件的约束：
$\alpha_ig_i(w^*)=0,\quad i=1,...,k$
根据支持向量机的定义我们可以知道，大部分数据点都位于支撑线以内，即 $g_i(w)=0$ ，因此其 $\alpha_i=0$ ，因此我们只需要记住支撑向量上有限几个 $\alpha_i$ 不等于0的点进行预测即可，大大缩短了预测所需的计算量。

三、带松弛变量的SVM

在实际应用中，完全线性可分的情况往往很少，那么我们应该怎么处理一些异常点呢？有一种思路就是放宽其区分的条件，我们称之为软间隔。
在这里插入图片描述
我们允许少数出现 $y^{(i)}(w^Tx^{(i)}+b)<1$ 的情况出现，但是我们应该放宽达到什么地步，我们为每一个样本引入松弛变量 $\xi_i$ 来进行控制，其中 $\xi_i\ge0$ ， $C$ 是一个大于零的常数，可以理解为对错误样本的惩罚程度，可以类比正则项中的正则系数。此时我们的目标函数就变成了：
$\min\limits_{w}\frac{1}{2}||w||^2+C\sum\limits_{i=1}^n\xi_i$ $s.t.\quad y^{(i)}(w^Tx^{(i)}+b)\ge1-\xi_i,\quad i=,...,n$

$\xi_i\ge0,\quad i=1,...,n$

同样我们将原问题进行拉格朗日化变为：
$\min\limits_{w,b,\xi}\max\limits_{\alpha,\beta} L(w,b,\xi,\alpha,\beta)=\min\limits_{w}\frac{1}{2}||w||^2+C\sum\limits_{i=1}^n\xi_i-\sum\limits_{i=1}^n\alpha_i[y^{(i)}(w^Tx^{(i)}+b)+\xi_i-1]-\sum\limits_{i=1}^n\beta_i\xi_i$ $s.t.\quad\alpha_i\ge0,\quad\beta_i\ge0$

其对偶问题为：
$\max\limits_{\alpha,\beta}\min\limits_{w,b,\xi} L(w,b,\xi,\alpha,\beta)$
满足以下KKT条件：
$\nabla_wL(w,b,\xi,\alpha,\beta)=w-\sum\limits_{i=1}^n\alpha_iy^{(i)}x^{(i)}=0$ 可得： $w=\sum\limits_{i=1}^n\alpha_iy^{(i)}x^{(i)}$ $\nabla_bL(w,b,\xi,\alpha,\beta)=\sum\limits_{i=1}^n\alpha_iy^{(i)}=0$ $\nabla_{\xi_i} L(w,b,\xi_i,\alpha,\beta)=C-\alpha_i-\beta_i=0$
将以上得到的三个条件带入拉格朗日化的函数可得：
$\begin{aligned}\max\limits_\alpha L(w,b,\xi,\alpha,\beta)&=\sum\limits_{i=1}^n\alpha_i-\frac{1}{2}\sum\limits_{i=1}^n\sum_{j=1}^n\alpha_i\alpha_jy^{(i)}y^{(j)}<x^{(i)},x^{(j)}>\\ s.t.\quad&0\le\alpha_i\le C\\&\sum\limits_{i=1}^n\alpha_iy^{(i)}=0\end{aligned}$
同时其满足KKT条件如下：
$1-\xi_i-y^{(i)}(w^Tx^{(i)}+b)\le0$ $\alpha_i[1-\xi_i-y^{(i)}(w^Tx^{(i)}+b)]=0$ $C-\alpha_i-\beta_i=0$ $\xi_i\ge0$ $\beta_i\xi_i=0$

此时我们可以针对 $\alpha_i$ 不同的取值进行讨论：

如果 $\alpha_i=0$ ，可得 $\beta_i=C\ne0$ ，因此 $\xi_i=0$ ， $y^{(i)}(w^Tx^{(i)}+b)\ge1$ ，说明样本点 $x$ 落在分隔边界上或者分隔边界外并且被分类正确，不是支撑向量
如果 $0<\alpha_i<C$ ，那么 $\beta_i\ne0，\xi_i=0$ ，此时 $1-\xi_i-y^{(i)}(w^Tx^{(i)}+b)=0$ ，因此可得 $y^{(i)}(w^Tx^{(i)}+b)=1$ ，所以此时的样本点落在最大分隔边界上，是支撑向量
如果 $\alpha_i=C$ ，此时 $\beta_i=0$ ，此时 $\xi_i$ 的取值就变得不一定，但一定是大于等于0的，同时 $1-\xi_i-y^{(i)}(w^Tx^{(i)}+b)=0$ ，所以可得 $y^{(i)}(w^Tx^{(i)}+b)\le1$ 。
- 如果 $0\le\xi_i<1$ ，此时 $y^{(i)}(w^Tx^{(i)}+b)=1-\xi_i>0$ ,说明此时的样本点位于最大分隔边界内部并且分类正确。
- 如果 $\xi_i=1$ ，此时 $y^{(i)}(w^Tx^{(i)}+b)=1-\xi_i=0$ ，说明此时样本点位于分隔平面上，无法进行正确的分类。
- 如果 $\xi_i>1$ ，此时 $y^{(i)}(w^Tx^{(i)}+b)=1-\xi_i<0$ ，说明此时样本点分类错误

四、带核函数的SVM

使用带核函数的SVM主要用来处理线性不可分的情况，已经不是单纯的处理部分异常值的问题。下面的左图很明显不可能靠一条线性的线来讲两个类别给区分开，只能是如右图所示将其映射至高维空间。
在这里插入图片描述
假设原来的样本点为 $x$ ，我们射映射后的样本点为 $\phi(x)$ ，那么其分割的超平面可以表示为 $w\phi(x)+b$ ，其对偶问题就变成了：
$\begin{aligned}\max\limits_\alpha L(w,b,\xi,\alpha,\beta)&=\sum\limits_{i=1}^n\alpha_i-\frac{1}{2}\sum\limits_{i=1}^n\sum_{j=1}^n\alpha_i\alpha_jy^{(i)}y^{(j)}<\phi(x^{(i)}),\phi(x^{(j)})>\\ s.t.\quad&0\le\alpha_i\le C\\&\sum\limits_{i=1}^n\alpha_iy^{(i)}=0\end{aligned}$

核函数的作用

我们假设 $K(x^{(i)},x^{(j)})$ 为核函数，其可以代替 $<\phi(x^{(i)}),\phi(x^{(j)})>$ 来进行相同的运算。原始向量映射至高纬空间再进行点积运算是一件十分繁琐的事情，而使用核函数使得我们无需进行这一步骤，以另一种方式达到同样的效果，省去大量计算，下面将举例说明：

我们假设原始数据为

$x_i=[x_{i1}x_{i2}]\quad\quad x_j=[x_{j1}x_{j2}]$
我们想要实现 $x_i,x_j>^2$ 的功能：
$\begin{aligned}K(x_i,x_j)&=<x_i,x_j>^2\\ &=(x_{i1}x_{j1}+x_{i2}x_{j2})^2\\ &= (x_{i1}^2x_{j1}^2+x_{i2}^2x_{j2}^2+2x_{i1}x_{j1}x_{i2}x_{j2})\\&=<\phi(x_1),\phi(x_2)>\end{aligned}$
$\phi(x_i)=[x_{i1}^2,x_{i2}^2,\sqrt{2}x_{i1}x_{i2}]$
$\phi(x_j)=[x_{j1}^2,x_{j2}^2,\sqrt{2}x_{j1}x_{j2}]$

可见使用核函数无需将数据映射至高维，大大简化了计算的过程。

核函数的要求

$G r a m$ 矩阵：

$G_{ij}=K(x_i,x_j)$

如果 $G r a m$ 矩阵为对称矩阵并且为半正定矩阵，那么 $K(x_i,x_j)$ 可以成为核函数。

常见的核函数

①多项式核函数 POLY

$K(x_i,x_j)=(<x_i,x_j>+c)^d$

$c\ge0$ 控制低阶项的强度
特殊情况，当 $c = 0, d = 1$ 时就是线性核，跟无核一样

②高斯核函数 RBF

$K(x_i,x_j)=exp(-\frac{||x_i-x_j||^2_2}{2\sigma^2})$

当 $x_i=x_j$ ，值为1，当 $x_i与x_j$ 距离增加，值倾向于0，使用高斯核函数之前需要将特征正规划
相当于做一个高维空间的高斯分布映射， $\sigma$ 越大，则正态分布的曲线越舒缓。
使用高斯核之前需要将数据进行正规化

五、将SVM扩展到支持多个类别

①OVR

对于K个类别的情况，训练K个SVM,第j个SVM用于判断任意条数据是属于类别j还是属于类别非j.预测的时候，具有最大值的 $w_i^Tx+b_i$ 表示给定的数据 $x$ 属于类别 $i$ .

②OVO

对于K个类别的情况，训练 $K * (K - 1) / 2$ 个SVM,每一个SVM只用于判读任意条数据是属于K中的特定两个类别。预测的时候，使用 $K * (K - 1) / 2$ 个SVM做 $K * (K - 1) / 2$ 次预测，使用计票的方式决定数据被分类为哪个类别的次数最多，就认为数据 $x$ 属此类别。
在这里插入图片描述

六、SVM的求解

经过对偶变换，我们将原始问题转化成了关于求解 $\alpha^*$ 的问题：
$\begin{aligned}\min\limits_\alpha L(w,b,\xi,\alpha,\beta)&=\frac{1}{2}\sum\limits_{i=1}^n\sum_{j=1}^n\alpha_i\alpha_jy^{(i)}y^{(j)}K(x^{(i)},x^{(j)})-\sum\limits_{i=1}^n\alpha_i\\ s.t.\quad&0\le\alpha_i\le C\\&\sum\limits_{i=1}^n\alpha_iy^{(i)}=0\end{aligned}$
这里最优解 $\alpha^*$ 是 $n$ 维的，直接求解在 $n$ 过大的情况下并不能完成，因此我们可以采用坐标轮换法的思想：
在这里插入图片描述
其原理就是对于高维的 $x$ 寻找最优解的过程转化为一系列低纬的 $x_i$ 分量求解过程，利用梯度下降的方法，在各自的维度上依次寻找最优解，最终可以达到相同的效果。

关于SVM求解我们使用较多的是SMO算法，其就是采用了坐标轮换法的思想，下面将进行介绍：

如果我们每次只选择更新一个参数 $\alpha_i$ ，那么他势必会打破 $\sum\limits_{i=1}^n\alpha_iy^{(i)}=0$ 的约束条件，因此SMO算法每次针对两个参数进行更新 $\alpha_1和\alpha_2$ ，这两个参数满足： $\alpha_1y^{(1)}+\alpha_2y^{(2)}=-\sum\limits_{k=3}^n\alpha_ky^{(k)}$
我们不妨设 $-\sum\limits_{k=3}^n\alpha_ky^{(k)}$ 为一个固定的常数 $\zeta$ ，那么我们可以得到 $\alpha_1y^{(1)}+\alpha_2y^{(2)}=\zeta$
因此我们可以得到 $\alpha_1=\zeta y^{(1)}-\alpha_2y^{(2)}y^{(1)}$

求解过程

1.先求得未限制范围的 $\alpha_2^{new,unc}$

下面介绍 $\alpha_2^{new,unc}$ 的求解过程：

记： $g(x)=\sum\limits_{i=1}^n\alpha_iy_iK(x_i,x)+b$

令： $E_i=g(x_i)-y_i=(\sum\limits_{j=1}^n\alpha_jy_jK(x_j,x_i)+b)-y_i$

引入： $v_i=\sum\limits_{j=3}^n\alpha_jy_jK(x_i,x_j)=g(x_i)-\sum\limits_{j=1}^2\alpha_jy_jK(x_i,x_j)-b$
目标函数：
$W(\alpha)=\min\limits_\alpha L(w,b,\xi,\alpha,\beta)=\frac{1}{2}\sum\limits_{i=1}^n\sum_{j=1}^n\alpha_i\alpha_jy^{(i)}y^{(j)}K(x^{(i)},x^{(j)})-\sum\limits_{i=1}^n\alpha_i$
$W(\alpha_1,\alpha_2)=\frac{1}{2}\alpha_1^2K_{11}+\frac{1}{2}\alpha_2^2K_{22}+\alpha_1\alpha_2y_1y_2K_{12}+y_1v_1\alpha_1+y_2v_2\alpha_2-(\alpha_1+\alpha_2)+O$
这里 $O$ 为其他无关常数项，对结果没什么影响，一会儿我们直接省去

前面我们已经说明过 $\alpha_1=\zeta y^{(1)}-\alpha_2y^{(2)}y^{(1)}$ ，因此我们将 $\alpha_1$ 替换掉得到：
$W(\alpha_2)=\frac{1}{2}(\zeta-\alpha_2y_2)^2K_{11}+\frac{1}{2}\alpha_2^2K_{22}+(\zeta -\alpha_2y_2)\alpha_2y_2K_{12}+v_1(\zeta -\alpha_2y_2)+y_2v_2\alpha_2-[(\zeta y_1-\alpha_2y_2y_1)+\alpha_2]$
此时函数里只剩下 $\alpha_2$ 一个未知项，我们对其求导得：
$\frac{\delta W}{\delta\alpha_2}=K_{11}\alpha_2+K_{22}\alpha_2-2K_{12}\alpha_2-K_{11}\zeta y_2+K_{12}\zeta y_2+y_1y_2-1-v_1y_2+v_2y_2$
令其等于0得：
$\begin{aligned}(K_{11}+K_{22}-2K_{12})\alpha_2&=y_2(y_2-y_1+\zeta K_{11}-\zeta K_{12}+v_1-v_2)\\&=y_2[y_2-y_1+\zeta K_{11}-\zeta K_{12}+(g(x_1)-\sum\limits_{j=1}^2\alpha_jy_jK_{1j}-b)-(g(x_2)-\sum\limits_{j=1}^2\alpha_jy_jK_{2j}-b)]\end{aligned}$
我们令 $\eta=(K_{11}+K_{22}-2K_{12})$

我们将 $\zeta=\alpha_1^{old}y_1+\alpha_2^{old}y_2$ 代入式子得：
$\begin{aligned}(K_{11}+K_{22}-2K_{12})\alpha_2^{new,unc}&=y_2[E_1-E_2+\alpha_2^{old}(K_{11}+K_{22}-2K_{12})]\\\\\alpha_2^{new,unc}&=\alpha_2^{old}+\frac{y_2(E_1-E_2)}{\eta}\end{aligned}$
2.求限制范围后的 $\alpha_2^{new}$
其中 $\alpha_2^{new}=\left\{ \begin{array}{rcl} H & & {\alpha_2^{new,unc}>H}\\\\ \alpha_2^{new,unc} & & {L\le\alpha_2^{new,unc}\le H}\\\\ L & &{\alpha_2^{new,unc}<L} \end{array} \right.$
这里我们的 $\alpha_2^{new}$ 是满足一定的约束关系的， $0\le \alpha_i\le C$ ，同时由于 $\alpha_1y^{(1)}+\alpha_2y^{(2)}=\zeta$ ，注意这里 $y^{(i)}\in\{1-,1\}$ 我们做下面两种假设：

$y^{(1)}$ 与 $y^{(2)}$ 同号，此时我们可以得到 $\alpha_1+\alpha_2=k$ ， $\alpha_2=k-\alpha_1$ ，因为 $\alpha_1\in[0,C]$ ，所以 $\alpha_2\in[-C+k,k]$ ，又因为 $k=\alpha_1+\alpha_2$ ，可得 $\alpha_2\in[\alpha_1+\alpha_2-C,\alpha_1+\alpha_2]$

因此可以得到 $L\le \alpha_2^{new}\le H$ $L=max(0,\alpha_1^{old}+\alpha_2^{old}-C),\quad H=min(C,\alpha_1^{old}+\alpha_2^{old})$

$y^{(1)}$ 与 $y^{(2)}$ 异号，此时我们可以得到 $\alpha_1-\alpha_2=k$ ，因此可以得到 $\alpha_2=\alpha_1-k$ ，因为 $\alpha_1\in[0,C]$ ，所以 $\alpha_2\in[-k,C-k]$ ，又因为 $k=\alpha_1-\alpha_2$ ，所以 $\alpha_2\in[\alpha_2-\alpha_1,C+\alpha_2-\alpha_1]$

因此可以得到 $L\le \alpha_2^{new}\le H$ $L=max(0,\alpha_2^{old}-\alpha_1^{old}),\quad H=min(C,C+\alpha_2^{old}-\alpha_1^{old})$
在这里插入图片描述
3.得到 $\alpha_1^{new}$ 的解

根据 $\alpha_1^{old}y_1+\alpha_2^{old}y_2=\alpha_1^{new}y_1+\alpha_2^{new}y_2$
我们可以求得 $\alpha_1^{new}=\alpha_1^{old}+y_1y_2(\alpha_2^{old}-\alpha_2^{new})$
4.更新参数 $b$ 和 $E_i$

前面我们已经证明，如果 $0\le \alpha_1^{new}\le C$ ，那么 $\alpha_1^{new}$ 为支持向量，我们可以利用它来更新参数 $b$
$\sum\limits_{i=1}^n\alpha_iy_iK_{i1}+b=y_1$ $b_1^{new}=y_1-\alpha_1^{new}y_1K_{11}-\alpha_2^{new}y_1K_{12}-\sum\limits_{i=3}^n\alpha_iy_iK_{i1}$ $E_i^{new}=(\sum\limits_{S}\alpha_jy_jK(x_j,x_i)+b^{new})-y_i$
其中 $S$ 为所有支撑向量的集合

变量的启发式选择

对于SMO算法，我们每次选择两个样本进行更新，那么其中至少有一个是要违反KKT条件的。
1.第一个变量的选择

违反KKT最严重的样本点，
检验样本点是否满足KKT条件
$\alpha_i=0\Rightarrow y_ig_x(x)\ge 0$ $0<\alpha_i<C\Rightarrow y_ig_x(x)=0$ $\alpha_i=C\Rightarrow y_ig_x(x)\le1$
其中当 $0<\alpha_i<C$ 时，对应点为支撑点，如果不满足KKT条件，对原始问题影响最大，所以我们一般选择 $0<\alpha_i<C$ 并且 $y_ig_x(x)\ne0$ 的点作为外循环

2.第二个变量的选择

我们的目的是希望目标函数能够有足够大的变化，即对应的 $E_1-E_2|$ 最大，是目标函数下降的最快

如果内循环通过上述方法找到的点不能使目标函数有足够的下降，则：
- 遍历间隔边界上的样本点，测试目标函数下降
- 如果下降不大，则遍历所有样本点
- 如果依然下降不大，则丢弃外循环点，重新选择

七、关于凸函数的补充

凸函数的定义

①其定义域为凸集
假设对于任意 $\in C$ 并且任意参数 $\alpha \in [0,1]$ ，我们有 $\alpha x+(1-\alpha)y\in C$ ，(即两点之间的任何一点都在定义域内)则集合为凸集。
在这里插入图片描述
其中1为凸集，2、3不是
②函数定义域为凸集，对于定义域里的任意 $x, y$ 满足

$f(\theta x+(1-\theta)y) <= \theta f(x)+(1-\theta)f(y)$
在这里插入图片描述

凸函数的判定方法

对于一元函数 $f (x)$ ，我们可以通过其二阶导数 $f ″ (x)$ 的符号来判断。如果函数的二阶导数总是非负，即 $f'' (x) \geq 0$ f″ ，则 $f (x)$ 是凸函数

对于多元函数 $f (X)$ ，我们可以通过其Hessian矩阵（Hessian矩阵是由多元函数的二阶导数组成的方阵）的正定性来判断。如果Hessian矩阵是半正定矩阵，则是 $f (X)$ 凸函数

常见的凸函数

线性函数为凸/凹函数
$e x p x, - l o g x, x l o g x$ 是凸函数
范数为凸函数

范数

$w||_1=|w_1|+|w_2|+...+|w_n|$

$||w||_2=\sqrt[2] {w_1^2+w_2^2+...+w_n^2}$

$||w||_p=\sqrt[p] {w_1^p+w_2^p+...+w_n^p}$
$\frac{x^Tx}{t}$ 为凸函数（ $x > 0$ ）