SMO算法流程

Kalzn

已于 2022-11-10 19:35:36 修改

阅读量1k

点赞数 1

分类专栏：工程文章标签：算法支持向量机

于 2022-09-27 17:28:46 首次发布

本文链接：https://blog.csdn.net/qq_35802619/article/details/127075123

版权

工程专栏收录该内容

5 篇文章 0 订阅

订阅专栏

SMO 算法流程

python代码见github

问题简介

SMO(Sequential Minimal Optimization)用于解决支持向量机中的对偶问题的最优化求解过程，该问题为：
$max_{\boldsymbol{\alpha}}\sum_{i=1}^N\alpha_i-\frac{1}{2}\sum_{i=1}^{N}\sum_{j=1}^{N}y_iy_j\alpha_i\alpha_jK_{ij}$
$s.t.\ \ \ 0 \le \alpha_i \le C, \sum_{i=1}^N\alpha_iy_i=0$

而此问题也满足KKT条件要求
$\left\{ \begin{aligned} \alpha_i \ge 0, \mu_i \ge 0\\ y_if(\boldsymbol{x_i})-1+\xi_i \le 0\\ \alpha_i(y_if(\boldsymbol{x_i})-1+\xi_i) = 0 \\ \xi_i \ge 0, \mu_i\xi_i=0 \end{aligned} \right .$

流程

该问题是一种凸二次规划问题，但是如果当作一般情况处理，计算过于繁琐。好在我们可以利用该问题特殊情况，得以特殊处理以简化流程。

SMO算法的核心思想是利用 $\sum_{i=1}^N\alpha_iy_i=0$ 这一条件，进行特殊处理。由于一次性确定所有 $\alpha$ 的最优化取值是十分困难，所谓我们不妨每次只考虑变更两个变量 $\alpha_i,\alpha_j$ ，然后唯一确定剩下的变量为 $\sum_{k=1,k \ne i, k\ne j}^N\alpha_ky_k= - (\alpha_iy_i+\alpha_jy_j)$ 。这里为什么选择两个变量，每次只选择一个不应该更容易吗？这里我们要注意，我们是通过迭代的方式每次选取一组 $\alpha$ 的值进行更改。鉴于条件 $\sum_{i=1}^N\alpha_iy_i=0$ ，我们是无法对单一 $\alpha$ 进行修改的，换句话说，如果我们更改了一个变量 $\alpha_i$ ，则必须有另一个变量 $\alpha_j$ 跟随发生改变以满足 $\sum_{i=1}^N\alpha_iy_i=0$ 。

以下，为了表述方便，我们每次选择的变量定为 $\alpha_1,\alpha_2$ ，此时目标函数可以写成：
$W(\alpha_1,\alpha_2)=\alpha_1+\alpha_2-\frac{1}{2}K_{11}y_1^2\alpha_1^2-\frac{1}{2}K_{22}y_2^2\alpha_2^2 - K_{12}y_1y_2\alpha_1\alpha_2-y_1\alpha_1\sum_{i=3}^N\alpha_iy_iK_{i1}-y_2\alpha_2\sum_{i=3}^N\alpha_iy_iK_{i2}+C$
这里我们把与 $\alpha_1,\alpha_2$ 无关的常数项都简写为 $C$ ，因为这部分在接下来的求导过程中无用。

这里引入我们之前的条件,并设定

$\alpha_1y_1+\alpha_2y_2=-\sum_{i=3}^Ny_i\alpha_i=\zeta$
$\alpha_1=(\zeta -\alpha_2y_2)y_1$

带入 $W$ 消去 $\alpha_1$ 得
$W(\alpha_2)=-\frac{1}{2}K_{11}(\zeta -\alpha_2y_2)^2-\frac{1}{2}K_{22}\alpha_2^2-y_2(\zeta-\alpha_2y_2)\alpha_2K_{12}-v_1(\zeta-\alpha_2y_2)-v_2y_2\alpha_2+(\zeta -\alpha_2y_2)y_1+\alpha_2+C$

其中

$v_1=\sum_{i=3}^N \alpha_iy_iK_{i1}$
$v_2=\sum_{i=3}^N \alpha_iy_iK_{1j}$

我们需要对其最大化，这里进行求导,赋值0求极值

$W'(\alpha_2)=-(K_{11}+K_{22}-2K_{12})\alpha_2+K_{11}\zeta y_2-K_{12}\zeta y_2 + v_1y_2-v_2y_2-y_1y_2+y_2^2=0$

至此，问题似乎得以解决，我们似乎只需要通过该等式解出 $\alpha_2$ 即可。但是，请再次注意，我们是通过迭代的方式每次选取一组 $\alpha$ 进行优化的。而注意到变量 $\zeta$ ，它的取值为： $-\sum_{i=3}^Ny_i\alpha_i$ ，其中其他的 $\alpha$ 变量我们无法获悉。我们只知道在之前的迭代中确定的旧值。

所以，这里我们考虑如何调整 $\alpha_1,\alpha_2$ 的数值。即，如何通过旧值推定出新值。我们假定，在之前的迭代中已经确定了一个拟定分隔超平面

$f(x)=\boldsymbol{w^Tx}+b=\sum_{i=1}^N \alpha^*_iy_iK_{\boldsymbol{x_i^Tx}}+b$

这里 $\alpha^*$ 为上一次迭代中的旧的值。这里我们明确，在此轮迭代中，改变的只有 $\alpha_1,\alpha_2$ ，所以有
$\sum_{i=3}^N \alpha_iy_iK_{i1}=\sum_{i=3}^N \alpha^*_iy_iK_{i1}$
$\sum_{i=3}^N \alpha_iy_iK_{1i}=\sum_{i=3}^N \alpha^*_iy_iK_{1i}$

所以我们将 $f$ 带入 $v_1,v_2$

$v_1=f(x_1)-\alpha^*_1y_1K_{11}-\alpha^*_2y_2K_{12}-b$
$v_2=f(x_2)-\alpha^*_1y_1K_{12}-\alpha^*_2y_2K_{22}-b$

将其带入 $W(\alpha_2)=0$ 得

$\alpha_2=\alpha_2^*+\frac{y_2(E_1-E_2)}{\eta}$
$\eta = K_{11}+K_{22}-2K_{12}$

其中 $E$ 为误差函数

$E_i=f(x_i)-y_i$

但此时，我们还没有考虑到条件：

$s.t.\ \ \ 0 \le \alpha_i \le C,$
$\alpha_1y_1+\alpha_2y_2=-\sum_{i=3}^Ny_i\alpha_i=\zeta$

由于 $y\in \{-1,+1\}$ ,故，上式无非就四种情况

$\alpha_1+\alpha_2=\zeta\tag 1$
$\alpha_1-\alpha_2=\zeta\tag 2$
$-\alpha_1+\alpha_2=\zeta\tag 3$
$\alpha_1+\alpha_2=-\zeta\tag 4$

其中(2)(3)可以归为一种情况 $\alpha_1-\alpha_2=k$ 其中 $k$ 可以归结为 $\zeta,-\zeta$ 。
满足线性规划

在这里插入图片描述

在这种情况下，应满足 $\alpha_2 \in [max(0, -k), min(C, C+k)]$
。定义 $L = m a x (0, - k), H = m i n (C, C + k)$

此外，(1)(4)可以归为另一种情况

在这里插入图片描述

在这种情况下，应满足 $\alpha_2 \in [max(0, k-C), min(C, k)]$ 。定义 $L = m a x (0, k - C), H = m i n (C, k)$

所以最后更新 $\alpha_2$

$\alpha_2=\left \{ \begin{aligned} L & \ \ \ \ \alpha_2 \le L \\ M & \ \ \ \ L \le \alpha_2 \le H\\ H & \ \ \ \ \alpha_2 \ge H \\ \end{aligned} \right .$
$M=\alpha_2^*+\frac{y_2(E_1-E_2)}{\eta}$

至此我们确定了 $\alpha_2$ 得更新值，然后 $\alpha_1$ 的值也随之推出。这里我们设
$\Delta\alpha_2=(\alpha_2 - \alpha_2^*)$
则有
$\alpha_1 = \alpha_1^*-y_1y_2\Delta\alpha_2$

这里我们需要明确一件事情，到目前为止，我们所作的事情就是求 $W(\alpha_2)$ 这个目标函数得极值，通过分析可以发现 $W(\alpha_2)$ 是一个二次多项式函数，而二次项的系数为 $\eta$ 。所以目前来说，上述结论仅在 $\eta>0$ 时成立，因为此时 $W(\alpha_2)$ 是个开口向下的二次函数，存在极值为最小值。这种情况实际上可以应对大部分情况。但是在一部分情况 $\eta \le 0$ ，此时函数极小值在定义域边界出现。当然，在算法的实际实现中，我们可以直接求出定义域的两端值和极值，然后取三者中的最小值即可。

接下来，我们将讨论偏置 $b$ 的值如何求出。根据KKT条件 $y_1(\boldsymbol{w^Tx_1}+b)=1,y_1\in{-1,+1}$ 可得 $\sum_{i=1}^N\alpha_iy_iK_{i1}=y_1$ ，即有

$b_1=y_1-\sum_{i=3}^N\alpha_i^*y_iK_{i1}-\alpha_1y_1K_{11}-\alpha_2y_2K_{21}$
带入误差函数 $E$ 得
$y_1-\sum_{i=3}^N\alpha_i^*y_iK_{i1}=-E_1+\alpha_1^*y_1K_{11}+\alpha_2^*y_2K_{11}+b^*$
其中 $b^*$ 为旧的偏置值，将该式子代入替换上式的前两项
$b_1=-E_1-y_1K_{11}(\alpha_1-\alpha_1^*)-y_2K_{21}(\alpha_2-\alpha_2^*)+b^*$
同理可以得出
$b_2=-E_2-y_1K_{12}(\alpha_1-\alpha_1^*)-y_2K_{22}(\alpha_2-\alpha_2^*)+b^*$
而最终的 $b$ 要取两者的中间值，即
$b=\frac{b_1+b_2}{2}$

最后，我们来讨论，如何进行变量的选取。首先我们应该确定第一个变量，此时，我们变量样本集，选取第一个不满足KKT条件的样本。这里写作KKT条件为：
$\alpha_i=0 \Longrightarrow y^{(i)}(w^Tx^{(i)}+b) \ge 1$
$\alpha_i=C \Longrightarrow y^{(i)}(w^Tx^{(i)}+b) \le 1$
$\le \alpha_i \le C \Longrightarrow y^{(i)}(w^Tx^{(i)}+b) = 1$

然后依照规则选取第二个变量，执行优化。当完成后，我们开始遍历非边界样例集（即满足 $0<\alpha_i<C$ 的样例），同样选择第一个不满足KKT条件的变量，然后依照一定规则选择出第二个变量进行优化。完成后，我们再次选择整个样本集进行以上操作。总得来说，我们交替选择整个样本集和非边界样本集进行优化，直至整个样本集全部满足KKT条件。

关于选取第二个变量的规则，我们的原则是让 $\alpha_2$ 尽可能大的发生变化，由于 $\alpha_1$ 依赖 $E_1-E_2|$ 所以当 $E_1$ 为正，则 $E_2$ 要尽量小，否则 $E_2$ 要尽量大。
有时按照上述的启发式选择第二个变量，不能够使得函数值有足够的下降，这时按下述步骤:

首先在非边界集上选择能够使函数值足够下降的样本作为第二个变量，
如果非边界集上没有，则在整个样本集上选择第二个变量，
如果整个样本集依然不存在，则重新选择第一个变量。

参考

1.https://blog.csdn.net/luoshixian099/article/details/51227754

2.https://www.cnblogs.com/jerrylead/archive/2011/03/18/1988419.html

3.https://www.jianshu.com/p/0c433f6f4141

4.https://zhuanlan.zhihu.com/p/257866920

5.John Platt.Sequential Minimal Optimization: A Fast Algorithm for Training Support Vector Machines (https://www.microsoft.com/en-us/research/publication/sequential-minimal-optimization-a-fast-algorithm-for-training-support-vector-machines/)