机器学习入门笔记：（4.3）SMO算法

最新推荐文章于 2020-08-21 16:54:47 发布

hongbin_xu

最新推荐文章于 2020-08-21 16:54:47 发布

阅读量1k

点赞数 4

分类专栏：机器学习机器学习笔记文章标签：机器学习算法 smo

本文链接：https://blog.csdn.net/hongbin_xu/article/details/78586776

版权

机器学习同时被 2 个专栏收录

30 篇文章 14 订阅

订阅专栏

机器学习笔记

13 篇文章 23 订阅

订阅专栏

前言

之前的博客中，已经介绍了SVM的原理:

机器学习入门学习笔记：（4.1）SVM算法

机器学习入门学习笔记：（4.2）核函数和软间隔

最后我们得到的优化问题如下：

max α \sum i = 1 m α i - 1 2 \sum i = 1 m \sum j = 1 m α i α j y i y j x i x j, s . t . \sum i = 1 m α i y i = 0 0 \leq α i \leq C, i = 1, 2, . . ., m

$\max_{\alpha} \sum_{i=1}^{m}\alpha_i - \frac{1}{2} \sum_{i=1}^{m} \sum_{j=1}^{m} \alpha_i \alpha_j y_i y_j x_i x_j, \\ s.t. \;\; \sum_{i=1}^{m}\alpha_iy_i = 0 \\ 0 \leq \alpha_i \leq C, i=1,2,...,m$
这个问题的解就是一系列的

α $\alpha$ ，这些

α $\alpha$ 会使得上面的式子有最大值。

这个式子是引入了软间隔后的支持向量机的问题，再进一步，用上核函数，就可以表示为：

max α \sum i = 1 m α i - 1 2 \sum i = 1 m \sum j = 1 m α i α j y i y j K (x i, x j), s . t . \sum i = 1 m α i y i = 0 0 \leq α i \leq C, i = 1, 2, . . ., m

$\max_{\alpha} \sum_{i=1}^{m}\alpha_i - \frac{1}{2} \sum_{i=1}^{m} \sum_{j=1}^{m} \alpha_i \alpha_j y_i y_jK( x_i,x_j), \\ s.t. \;\; \sum_{i=1}^{m}\alpha_iy_i = 0 \\ 0 \leq \alpha_i \leq C, i=1,2,...,m$
一般来说，我们都不是很喜欢求最大值的问题，而是求最小值，所以将上面的问题换成求最小值的形式：

min α 1 2 \sum i = 1 m \sum j = 1 m α i α j y i y j K (x i, x j) - \sum i = 1 m α i, s . t . \sum i = 1 m α i y i = 0 0 \leq α i \leq C, i = 1, 2, . . ., m

$\min_{\alpha} \frac{1}{2} \sum_{i=1}^{m} \sum_{j=1}^{m} \alpha_i \alpha_j y_i y_jK( x_i,x_j) - \sum_{i=1}^{m}\alpha_i , \\ s.t. \;\; \sum_{i=1}^{m}\alpha_iy_i = 0 \\ 0 \leq \alpha_i \leq C, i=1,2,...,m$
我们之后的讨论都会围绕着这个问题进行。

SMO算法

为了解决二次规划问题，人们提出许多高效的算法。其中比较典型的一个就是SMO(Sequential Minimal Optimization)算法。SMO算法由Microsoft Research的John C. Platt在1998年提出，并成为最快的二次规划优化算法，特别针对线性SVM和数据稀疏时性能更优。关于SMO最好的资料就是他本人写的《Sequential Minimal Optimization A Fast Algorithm for Training Support Vector Machines》了。

（摘自支持向量机（五）SMO算法）

SMO 概念

SMO的基本思路就是：先固定 $\alpha_i$ 之外的所有参数，然后求 $\alpha_i$ 的极值。但是问题中存在约束条件： $\sum_{i=1}^{m}\alpha_iy_i = 0$ 。如果固定了 $\alpha_i$ 之外的其他变量，则 $\alpha_i$ 也会被固定，可以由其他的变量导出。于是，一次只留一个参数，固定其余参数的方法在这里是不适用的，但是这个思想却给了我们不错的启发。那么，SMO可以每次选择两个变量 $\alpha_i$ 和 $\alpha_j$ ，并固定其他参数。这样，在参数初始化之后，SMO不断迭代重复下面的步骤，直至收敛：

选取一对新的 $\alpha_i$ 和 $\alpha_j$ ;
固定 $\alpha_i$ 和 $\alpha_j$ 之外的参数，求解前面的优化问题，获取更新后的 $\alpha_i$ 和 $\alpha_j$ 。

假设选取的两个变量为 $\alpha_1$ 和 $\alpha_2$ ，那么由于其余参数均被固定，目标函数最后也只与 $\alpha_1$ 和 $\alpha_2$ 有关。

由约束条件 $\sum_{i=1}^{m}\alpha_iy_i = 0$ 有： $\alpha_1 y_1 + \alpha_2 y_2 = C$ ，其中 $C$ 为常数。

为简化表示，我们用 $K_ij$ 表示 $K(x_i, x_j)$ 。

对原始问题进行化简：

min α 1 2 \sum i = 1 m \sum j = 1 m α i α j y i y j K (x i, x j) - \sum i = 1 m α i

$\min_{\alpha} \frac{1}{2} \sum_{i=1}^{m} \sum_{j=1}^{m} \alpha_i \alpha_j y_i y_jK( x_i,x_j) - \sum_{i=1}^{m}\alpha_i$

= min α \sum i = 1 m [α i α 1 y i y 1 K (x i, x 1) + α i α 2 y i y 2 K (x i, x 2) + \sum j = 3 m α i α j y i y j K (x i, x j)] - α 1 - α 2 - \sum i = 3 m α i

$=\min_{\alpha} \sum_{i=1}^{m} [ \alpha_i \alpha_1 y_i y_1 K( x_i,x_1) + \alpha_i \alpha_2 y_i y_2 K( x_i,x_2) + \sum_{j=3}^{m} \alpha_i \alpha_j y_i y_jK( x_i,x_j)] - \alpha_1-\alpha_2 - \sum_{i=3}^{m}\alpha_i$

= min α 1 2 [α 21 y 21 K (x 1, x 1) + α 1 α 2 y 1 y 2 K (x 1, x 2) + \sum j = 3 m α 1 α j y 1 y j K (x 1, x j)] + 1 2 [α 2 α 1 y 2 y 1 K (x 2, x 1) + α 22 y 22 K (x 2, x 2) + \sum j = 3 m α 2 α j y 2 y j K (x 2, x j)] + 1 2 \sum i = 3 m [α i α 1 y i y 1 K (x i, x 1) + α i α 2 y i y 2 K (x i, x 2) + \sum j = 3 m α i α j y i y j K (x i, x j)] - α 1 - α 2 - \sum i = 3 m α i

$=\min_{\alpha} \frac{1}{2} [ \alpha_1^2 y_1^2 K( x_1,x_1) + \alpha_1 \alpha_2 y_1 y_2 K( x_1,x_2) + \sum_{j=3}^{m} \alpha_1 \alpha_j y_1 y_jK( x_1,x_j)] \\ + \frac{1}{2} [ \alpha_2 \alpha_1 y_2 y_1 K( x_2,x_1) + \alpha_2^2 y_2^2 K( x_2,x_2) + \sum_{j=3}^{m} \alpha_2 \alpha_j y_2 y_jK( x_2,x_j)] \\ + \frac{1}{2} \sum_{i=3}^{m} [ \alpha_i \alpha_1 y_i y_1 K( x_i,x_1) + \alpha_i \alpha_2 y_i y_2 K( x_i,x_2) + \sum_{j=3}^{m} \alpha_i \alpha_j y_i y_jK( x_i,x_j)] \\ - \alpha_1-\alpha_2 - \sum_{i=3}^{m}\alpha_i$

= min α 1 2 [α 21 y 21 K 11 + α 22 y 22 K 22 + 2 α 1 α 2 y 1 y 2 k 12 + \sum i = 3 m \sum j = 3 m α i α j y i y j K (x i, x j) + 2 α 1 y 1 v 1 + 2 α 2 y 2 v 2] - α 1 - α 2 - \sum i = 3 m α i

$=\min_{\alpha} \frac{1}{2}[\alpha_1^2y_1^2K_{11} + \alpha_2^2y_2^2K_{22} + 2\alpha_1 \alpha_2y_1y_2k_{12} + \sum_{i=3}^{m} \sum_{j=3}^{m} \alpha_i \alpha_j y_i y_jK( x_i,x_j) + 2\alpha_1 y_1 v_1 +2\alpha_2 y_2 v_2] - \alpha_1-\alpha_2 - \sum_{i=3}^{m}\alpha_i$

（其中，因为核函数满足 $K_{12}=K_{21}$ ，所以直接合在一起了；为了便于表示，令 $v_i=\sum_{j=3}^{m}y_j\alpha_jk_{ij}$ ）

由于除了 $\alpha_1$ 和 $\alpha_2$ 之外的 $\alpha_i,i=3,4,...,m$ 都被固定了，所以都是常数。

= min α 1 2 [α 21 y 21 K 11 + α 22 y 22 K 22 + 2 α 1 α 2 y 1 y 2 k 12 + 2 α 1 y 1 v 1 + 2 α 2 y 2 v 2] - α 1 - α 2 + C

$=\min_{\alpha} \frac{1}{2}[\alpha_1^2y_1^2K_{11} + \alpha_2^2y_2^2K_{22} + 2\alpha_1 \alpha_2y_1y_2k_{12} + 2\alpha_1 y_1 v_1 +2\alpha_2 y_2 v_2] - \alpha_1-\alpha_2 + C$

其中 $C$ 是任意常数。

解的范围

现在的结果是有关 $\alpha_1$ 和 $\alpha_2$ 的表达式，为了进一步化简我们还可以将 $\alpha_1$ 用 $\alpha_2$ 表示。但是在此之前，还有一个问题，那就是 $\alpha_1$ 和 $\alpha_2$ 的取值范围是多少？尽管有了约束条件 $\sum_{i=1}^{m}\alpha_iy_i = 0$ ，但是在 $y_1$ 和 $y_2$ 取不同值时，也会有不同的约束关系产生。

这里写图片描述

（摘自John C. Platt的论文）

前面推出的 $\alpha_1$ 和 $\alpha_2$ 的约束关系为： $\alpha_1 y_1 + \alpha_2 y_2 = C$ 。

我们还有些已知的条件：

$0 \leq \alpha \leq C$

$y_1$ 和 $y_2$ 都是输出的标签，为 $\pm1$ ，显然： $y_1^2=y_2^2=1$ 。

如上图所示，分两种情况讨论：

如果 $y_1 \neq y_2$ ，则 $y_1$ 和 $y_2$ 一定异号，那么约束关系变为： $\alpha_1 - \alpha_2 = k$ ， $k$ 是任意常数。 $k$ 具体是多少我们并不关心，但是我们知道 $\alpha_1$ 和 $\alpha_2$ 的取值都落在途中的直线上。 $k$ 无非就是一个截距，随着 $k$ 的变化，这根直线在方框内会上下移动，交点也变，但是一定要在方框范围内，所以边界一定会落在方框与直线的交点上。假设几种可能的情况就不难推算出 $\alpha$ 的范围了假设只考虑 $\alpha_2$ 的范围，设 $L$ 为 $\alpha_2$ 可能的最小取值， $H$ 为 $\alpha_2$ 可能的最大取值。

$L = max (0, - k), H = min (C, C - k) L = max (0, α 2 - α 1), H = min (C, C + α 2 - α 1)$ $L=\max(0, -k), H=\min(C,C-k) \\ L=\max(0, \alpha_2 - \alpha_1), H=\min(C,C+\alpha_2 - \alpha_1)$
如果 $y_1 = y_2$ ，则 $y_1$ 和 $y_2$ 一定同号，那么约束关系变为： $\alpha_1 + \alpha_2 = k$ ， $k$ 是任意常数。与前面同样分析。只考虑 $\alpha_2$ 的范围，设 $L$ 为 $\alpha_2$ 可能的最小取值， $H$ 为 $\alpha_2$ 可能的最大取值。根据图中所示，可以得到如下关系：

$L = m a x (0, k - C), H = m i n (C, k) L = m a x (0, α 1 + α 2 - C), H = m i n (C, α 1 + α 2)$ $L=max(0,k-C),H=min(C,k)\\ L=max(0,\alpha_1+\alpha_2-C),H=min(C, \alpha_1+\alpha_2)$

通过上面的讨论，我们得到了 $\alpha_2$ 的可能取值范围： $L\leq \alpha_2 \leq H$

当 $y_1 \neq y_2$ 时， $L=\max(0, \alpha_2 - \alpha_1), H=\min(C,C+\alpha_2 - \alpha_1)$ ；
当 $y_1 = y_2$ 时， $L=max(0,\alpha_1+\alpha_2-C),H=min(C, \alpha_1+\alpha_2)$ 。

同理， $\alpha_1$ 的范围与 $\alpha_2$ 是一样的。这个范围先保留，后面再用。

求解优化问题

转化为一元函数求极值点

接下来，将 $\alpha_1$ 用 $\alpha_2$ 表示。将约束关系： $\alpha_1 y_1 + \alpha_2 y_2 = C$ 左右同时乘上 $y_1$ 得到：

α 1 = (ζ - α 2 y 2) y 1

$\alpha_1 = (\zeta - \alpha_2y_2)y_1$ ，这里的

ζ $\zeta$ 是常数，为了不跟原式子中的

C $C$ 混淆，换成

ζ $\zeta$ 表示这个常数。

好了，我们已经将 $\alpha_1$ 用 $\alpha_2$ 表示出来了，可以代回到前面的问题中了：

min α 1 2 [α 21 y 21 K 11 + α 22 y 22 K 22 + 2 α 1 α 2 y 1 y 2 k 12 + 2 α 1 y 1 v 1 + 2 α 2 y 2 v 2] - α 1 - α 2 + C 其 中 v i = \sum j = 3 m y j α j k i j

$\min_{\alpha} \frac{1}{2}[\alpha_1^2y_1^2K_{11} + \alpha_2^2y_2^2K_{22} + 2\alpha_1 \alpha_2y_1y_2k_{12} + 2\alpha_1 y_1 v_1 +2\alpha_2 y_2 v_2] - \alpha_1-\alpha_2 + C \\其中 v_i=\sum_{j=3}^{m}y_j\alpha_jk_{ij}$

我们有 $y_1^2=y_2^2=1$ ，以及 $\alpha_1 = (\zeta - \alpha_2y_2)y_1$ ，代入化简得到：

min α 1 2 [(ζ - α 2 y 2) 2 k 11 + k 22 α 22 + 2 (ζ - α 2 y 2) α 2 y 2 k 12 + 2 (ζ - α 2 y 2) v 1 + 2 α 2 y 2 v 2] - (ζ - α 2 y 2) y 1 - α 2 + C

$\min_{\alpha} \frac{1}{2}[(\zeta - \alpha_2y_2)^2 k_{11}+k_{22}\alpha_2^2 + 2 (\zeta - \alpha_2y_2) \alpha_2 y_2k_{12} + 2 (\zeta - \alpha_2y_2) v_1 +2\alpha_2 y_2 v_2] - (\zeta - \alpha_2y_2)y_1 - \alpha_2 + C$

常数可以去掉，不影响结果：

min α 1 2 [(ζ - α 2 y 2) 2 k 11 + k 22 α 22 + 2 (ζ - α 2 y 2) α 2 y 2 k 12 + 2 (ζ - α 2 y 2) v 1 + 2 α 2 y 2 v 2] - (ζ - α 2 y 2) y 1 - α 2

上面的问题已经化成了单变量的优化问题了，使用常规套路，求偏导取0，即可解出 $\alpha_2$ 的值。

对目标函数求偏导数：

\partial Φ \partial α 2 = α 2 (K 11 + K 22 - 2 K 12) - K 11 ζ y 2 + K 12 ζ y 2 - y 2 v 1 + y 2 v 2 + y 1 y 2 - 1

$\frac{\partial \Phi}{\partial \alpha_2} = \alpha_2 ( K_{11} + K_{22} - 2K_{12}) - K_{11} \zeta y_2 + K_{12} \zeta y_2 - y_2 v_1 + y_2 v_2 + y_1 y_2 - 1$

令这个偏导数为0可以求出新的 $\alpha_2$ ，利用

α 1 = (ζ - α 2 y 2) y 1

$\alpha_1 = (\zeta - \alpha_2y_2)y_1$ 这个关系，又可以求出新的

α1 $\alpha_1$ ，这两新求出的值即为我们使用SMO算法优化之后的结果。为了与原始的

α1 $\alpha_1$ 和

α2 $\alpha_2$ 值区分，我们将这两个新的值标记为

α∗1 $\alpha_1^*$ 和

α∗2 $\alpha_2^*$ 。

修改后的几个条件如下：

\partial Φ \partial α * 2 = α * 2 (K 11 + K 22 - 2 K 12) - K 11 ζ y 2 + K 12 ζ y 2 - y 2 v 1 + y 2 v 2 + y 1 y 2 - 1 = 0

$\frac{\partial \Phi}{\partial \alpha_2^*} = \alpha_2^* ( K_{11} + K_{22} - 2K_{12}) - K_{11} \zeta y_2 + K_{12} \zeta y_2 - y_2 v_1 + y_2 v_2 + y_1 y_2 - 1 = 0$

ζ = α 1 y 1 + α 2 y 2 = α * 1 y 1 + α * 2 y 2

$\zeta = \alpha_1 y_1 + \alpha_2 y_2=\alpha_1^* y_1 + \alpha_2^* y_2$

其 中 v i = \sum j = 3 m y j α j k i j

$其中 v_i=\sum_{j=3}^{m}y_j\alpha_jk_{ij}$

为了后面表示简便，还要给出几个关系：

如果把 $v_i$ 直接代入，结果太复杂了。还需要对 $v_i$ 做一些变换：

前面的博客中，我们已经推导过SVM的数学模型的最终结果： $f(x_i)=\omega^T x + b=\sum_{j=1}^{m}\alpha_j y_j K(x_i, x_j)+b$

展开 $f(x)$ 看看：

f (x 1) = α 1 y 1 K 11 + α 2 y 2 K 12 + \sum j = 3 m α j y j K 1 j + b = α 1 y 1 K 11 + α 2 y 2 K 12 + v 1 + b

$f(x_1) = \alpha_1 y_1 K_{11} + \alpha_2 y_2 K_{12} + \sum_{j=3}^{m}\alpha_j y_j K_{1j}+b = \alpha_1 y_1 K_{11} + \alpha_2 y_2 K_{12} + v_1+b$

f (x 2) = α 1 y 1 K 12 + α 2 y 2 K 22 + \sum j = 3 m α j y j K 2 j + b = α 1 y 1 K 12 + α 2 y 2 K 22 + v 2 + b

$f(x_2) = \alpha_1 y_1 K_{12} + \alpha_2 y_2 K_{22} + \sum_{j=3}^{m}\alpha_j y_j K_{2j}+b = \alpha_1 y_1 K_{12} + \alpha_2 y_2 K_{22} + v_2+b$

所以：

v 1 = f (x 1) - α 1 y 1 K 11 - α 2 y 2 K 12 - b

$v_1 = f(x_1) - \alpha_1 y_1 K_{11} - \alpha_2 y_2 K_{12} - b$

v 2 = f (x 2) - α 1 y 1 K 12 - α 2 y 2 K 22 - b

$v_2 = f(x_2) - \alpha_1 y_1 K_{12} - \alpha_2 y_2 K_{22} - b$

好了，条件基本都得到了，再列一下我们要用的条件：

\partial Φ \partial α * 2 = α * 2 (K 11 + K 22 - 2 K 12) - K 11 ζ y 2 + K 12 ζ y 2 - y 2 v 1 + y 2 v 2 + y 1 y 2 - 1 = 0

$\frac{\partial \Phi}{\partial \alpha_2^*} = \alpha_2^* ( K_{11} + K_{22} - 2K_{12}) - K_{11} \zeta y_2 + K_{12} \zeta y_2 - y_2 v_1 + y_2 v_2 + y_1 y_2 - 1 = 0$

ζ = α 1 y 1 + α 2 y 2 (= α * 1 y 1 + α * 2 y 2)

$\zeta = \alpha_1 y_1 + \alpha_2 y_2(=\alpha_1^* y_1 + \alpha_2^* y_2)$

v 1 = f (x 1) - α 1 y 1 K 11 - α 2 y 2 K 12 - b

$v_1 = f(x_1) - \alpha_1 y_1 K_{11} - \alpha_2 y_2 K_{12} - b$

v 2 = f (x 2) - α 1 y 1 K 12 - α 2 y 2 K 22 - b

$v_2 = f(x_2) - \alpha_1 y_1 K_{12} - \alpha_2 y_2 K_{22} - b$

联立，化简得：(注： $\zeta = \alpha_1 y_1 + \alpha_2 y_2$ ，用旧的 $\alpha1$ 和 $\alpha_2$ ，因为我们最后要表示出新的 $\alpha_2^*$ ）

α * 2 (K 11 + K 22 - 2 K 12) = (K 11 + K 22 - 2 K 12) α 2 + y 2 [y 2 - y 1 + f (x 1) - f (x 2)]

$\alpha_2^* ( K_{11} + K_{22} - 2K_{12}) = ( K_{11} + K_{22} - 2K_{12}) \alpha_2 + y_2[y_2 - y_1 + f(x_1) - f(x_2)]$

设预测值与真实值之差为 $E_i$ ： $E_i = f(x_i) - y_i$

继续化简：

α * 2 = α 2 + y 2 E 1 - E 2 ( K 11 + K 22 - 2 K 12 )

$\alpha_2^* = \alpha_2 + y_2 \frac{E_1 - E_2}{( K_{11} + K_{22} - 2K_{12})}$

再记 $\eta = ( K_{11} + K_{22} - 2K_{12})$ ：

α * 2 = α 2 + y 2 E 1 - E 2 η, η = (K 11 + K 22 - 2 K 12)

$\alpha_2^* = \alpha_2 + y_2 \frac{E_1 - E_2}{\eta}, \eta = ( K_{11} + K_{22} - 2K_{12})$

注意， $\alpha_2^*$ 是经过优化后求出的解， $\alpha_2$ 是之前的值。

当然还有 $\alpha_2$ 的范围约束，前面我们已经推导了：

了 $\alpha_2$ 的可能取值范围： $L\leq \alpha_2 \leq H$

当 $y_1 \neq y_2$ 时， $L=\max(0, \alpha_2 - \alpha_1), H=\min(C,C+\alpha_2 - \alpha_1)$ ；
当 $y_1 = y_2$ 时， $L=max(0,\alpha_1+\alpha_2-C),H=min(C, C+\alpha_1+\alpha_2)$ 。

所以求出了优化后的 $\alpha_2^*$ 后，还需要经过一个范围的约束：

α n e w 2 = ⎧ ⎩ ⎨ ⎪ ⎪ H, α * 2 > H α * 2, L \leq α * 2 \leq H L, α * 2 < L

$\alpha_2^{new}=\begin{cases} H, \alpha_2^* > H \\ \alpha_2^*, L \leq \alpha_2^* \leq H \\ L, \alpha_2^* < L \end{cases}$

求解 $\alpha_1$

知道了 $\alpha_2$ 求 $\alpha_1$ 就很容易了：

由约束条件： $\alpha_1 y_1 + \alpha_2 y_2 = \alpha_1^{new} y_1 + \alpha_2^{new} y_2 = \zeta$ 得到：

α n e w 1 = α 1 + y 1 y 2 (α 2 - α n e w 2)

$\alpha_1^{new} = \alpha_1 + y_1 y_2(\alpha_2 - \alpha_2^{new})$

取临界情况

前面推导的结果：

α * 2 = α 2 + y 2 E 1 - E 2 η, η = (K 11 + K 22 - 2 K 12)

$\alpha_2^* = \alpha_2 + y_2 \frac{E_1 - E_2}{\eta}, \eta = ( K_{11} + K_{22} - 2K_{12})$

大部分情况下，都有 $\eta = ( K_{11} + K_{22} - 2K_{12}) > 0$ ，但是在不满足这个条件时， $\alpha_2^*$ 需要取临界值。

η<0,当核函数K不满足Mercer定理时，矩阵K非正定；
η=0,样本x1与x2输入特征相同；

也可以换个方式来理解：

原问题：

min α 1 2 [(ζ - α 2 y 2) 2 k 11 + k 22 α 22 + 2 (ζ - α 2 y 2) α 2 y 2 k 12 + 2 (ζ - α 2 y 2) v 1 + 2 α 2 y 2 v 2] - (ζ - α 2 y 2) y 1 - α 2 + C

其一阶偏导数为：

\partial Φ \partial α 2 = α 2 (K 11 + K 22 - 2 K 12) - K 11 ζ y 2 + K 12 ζ y 2 - y 2 v 1 + y 2 v 2 + y 1 y 2 - 1

$\frac{\partial \Phi}{\partial \alpha_2} = \alpha_2 ( K_{11} + K_{22} - 2K_{12}) - K_{11} \zeta y_2 + K_{12} \zeta y_2 - y_2 v_1 + y_2 v_2 + y_1 y_2 - 1$

二阶偏导数为：

\partial 2 Φ \partial α 2 2 = η = (K 11 + K 22 - 2 K 12)

$\frac{\partial^2 \Phi}{\partial \alpha_2^2} = \eta = ( K_{11} + K_{22} - 2K_{12})$

这个 $\eta$ 就是原问题的二阶偏导数，根据函数的性质来看：

当 $\eta < 0$ 时，目标函数为凸函数，没有极小值，最小值会在边界取得；
当 $\eta=0$ 时，目标函数为单调函数，很明显，最小值或者最大值都会在边界上取得。

所以，当 $\eta \leq 0$ 时，把 $\alpha_2^*=L$ 和 $\alpha_2^*=H$ 分别代入 $\alpha_1 y_1 + \alpha_2 y_2 = \alpha_1^{new} y_1 + \alpha_2^{new} y_2 = \zeta$ 解出 $\alpha_1^*=L_1$ 和 $\alpha_1^* = H_1$ ，其中令 $s=y_1 y_2$ ：

L 1 = α 1 + s (α 2 - L)

$L_1 = \alpha_1 + s(\alpha_2 - L)$

H 1 = α 1 + s (α 2 - H)

$H_1 = \alpha_1 + s(\alpha_2 - H)$

代回到目标函数中可以求出对应的两个可能值 $\Psi_L$ 和 $\Psi_H$ ，最后取两者中更小的那个就是最小值了。

代入之前先看看目标函数：

Ψ = 1 2 [α 21 K 11 + α 22 K 22 + 2 α 1 α 2 y 1 y 2 k 12 + 2 α 1 y 1 v 1 + 2 α 2 y 2 v 2] - α 1 - α 2

$\Psi = \frac{1}{2}[\alpha_1^2K_{11} + \alpha_2^2K_{22} + 2\alpha_1 \alpha_2y_1y_2k_{12} + 2\alpha_1 y_1 v_1 +2\alpha_2 y_2 v_2] - \alpha_1-\alpha_2$

因为 $v_1$ 和 $v_2$ 的存在，展开后还是有些不太好看的。 $v_i=\sum_{j=3}^{m}y_j\alpha_jk_{ij}$ 这东西不好化简，所以使用 $v_i$ 的另一种表示形式：

v i = f (x i) - α 1 y 1 K i 1 - α 2 y 2 K i 2 - b

$v_i = f(x_i) - \alpha_1 y_1 K_{i1} - \alpha_2 y_2 K_{i2} - b$

代入 $\Psi$ 中：(注： $y_1^2 = y_2^2=1$ )

Ψ = 1 2 α 21 K 11 + 1 2 α 22 K 22 + α 1 α 2 y 1 y 2 K 12 + α 1 y 1 (f (x 1) - α 1 y 1 K 11 - α 2 y 2 K 12 - b) + α 2 y 2 (f (x 2) - α 1 y 1 K 1 2 - α 2 y 2 K 22 - b) - α 1 y 21 - α 2 y 22

$\Psi = \frac{1}{2} \alpha_1^2 K_{11} + \frac{1}{2} \alpha_2^2 K_{22} +\alpha_1 \alpha_2 y_1 y_2 K_{12} + \alpha_1 y_1 (f(x_1) - \alpha_1 y_1 K_{11} - \alpha_2 y_2 K_{12} - b) \\ + \alpha_2 y_2 (f(x_2) - \alpha_1 y_1 K_12 - \alpha_2 y_2 K_{22} - b) - \alpha_1 y_1^2 -\alpha_2 y_2^2$

Ψ = 1 2 α 21 K 11 + 1 2 α 22 K 22 + α 1 α 2 y 1 y 2 K 12 + α 1 (y 1 f (x 1) - α 1 K 11 - α 2 y 1 y 2 K 12 - y 1 b - y 21) + α 2 (y 2 f (x 2) - α 1 y 1 y 2 K 1 2 - α 2 K 22 - b y 2 - y 22)

$\Psi = \frac{1}{2} \alpha_1^2 K_{11} + \frac{1}{2} \alpha_2^2 K_{22} +\alpha_1 \alpha_2 y_1 y_2 K_{12} + \alpha_1 (y_1 f(x_1) - \alpha_1 K_{11} - \alpha_2 y_1 y_2 K_{12} - y_1 b - y_1^2) \\ + \alpha_2 (y_2 f(x_2) - \alpha_1 y_1 y_2 K_12 - \alpha_2 K_{22} - by_2 - y_2^2)$

下面令 $\Psi = \frac{1}{2} \alpha_1^2 K_{11} + \frac{1}{2} \alpha_2^2 K_{22} +\alpha_1 \alpha_2 y_1 y_2 k_{12} + \alpha_1 f_1 + \alpha_2 f_2$ ，则：

f 1 = y 1 f (x 1) - α 1 K 11 - α 2 y 1 y 2 K 12 - y 1 b - y 21 = y 1 (E 1 - b) - α 1 K 11 - α 2 y 1 y 2 K 12

$f_1 =y_1 f(x_1) - \alpha_1 K_{11} - \alpha_2 y_1 y_2 K_{12} - y_1 b - y_1^2=y_1(E_1-b) - \alpha_1K_{11}- \alpha_2 y_1 y_2 K_{12}$

f 2 = y 2 f (x 2) - α 1 y 1 y 2 K 1 2 - α 2 K 22 - b y 2 - y 22 = y 2 (E 2 - b) - α 1 y 1 y 2 K 1 2 - α 2 K 22

$f_2 = y_2 f(x_2) - \alpha_1 y_1 y_2 K_12 - \alpha_2 K_{22} - by_2 - y_2^2 =y_2(E_2-b) - \alpha_1 y_1 y_2 K_12 - \alpha_2 K_{22}$

使用上面的这些式子，将 $L_1 = \alpha_1 + s(\alpha_2 - L)$ 、 $H_1 = \alpha_1 + s(\alpha_2 - H)$ 以及 $s=y_1y_2$ 代入可以得到如下结果：

这里写图片描述

这里是论文中的结果，我就偷懒不写步骤了。前面推导的式子联立就可以得到上面的6个式子。

计算 $\omega$ 和b

首先看 $\omega$ ，前面我们可以解出 $\alpha$ ，根据公式： $\omega=\sum_{i=1}^{m}\alpha_i y_i x_i$ 就可以求出来 $\omega$ 。

因为除了 $\alpha_1$ 和 $\alpha_2$ 之外的 $\alpha_i$ 都被固定了，所以优化前后都会有如下关系：

ω = α 1 y 1 x 1 + α 2 y 2 x 2 + \sum i = 3 m α i y i x i

$\omega = \alpha_1 y_1 x_1 + \alpha_2 y_2 x_2 + \sum_{i=3}^{m}\alpha_i y_i x_i$

ω n e w = α n e w 1 y 1 x 1 + α n e w 2 y 2 x 2 + \sum i = 3 m α i y i x i

$\omega^{new} = \alpha_1^{new} y_1 x_1 + \alpha_2^{new} y_2 x_2 + \sum_{i=3}^{m}\alpha_i y_i x_i$

两式做差即可求出新的 $\omega$ ：

ω n e w = ω + y 1 x 1 (α n e w 1 - α 1) + y 2 x 2 (α n e w 2 - α 2)

$\omega^{new} = \omega + y_1 x_1 (\alpha_1^{new} - \alpha_1) + y_2 x_2 (\alpha_2^{new} - \alpha_2)$

然后是 $b$ ，我们没有直接的公式来计算，只能通过KKT条件间接求出来。

这里写图片描述

（摘自Platt的论文）

这是原优化问题的KKT条件：

当αi=0时，分类是正确的；
- 当 $0 \leq \alpha_i \leq C$ 时，这时的样本点是支持向量，处在边界上；
- 当 $\alpha_i = C$ 时，位于边界之间。
- 参考上面的KKT条件进行分类讨论：
  1. 如果 $0 < \alpha_1< C$ ，则 $(x_1,y_1)$ 为支持向量，满足 $y_i(\sum_{i=1}^{m}\alpha_i y_i K_{i1}+ b_1)=1$ ：
    
    $α n e w 1 y 1 K 11 + α n e w 2 y 2 K 21 + \sum i = 3 m α i y i K i 1 + b n e w 1 = y 1$ $\alpha_1^{new} y_1 K_{11} + \alpha_2^{new} y_2 K_{21} + \sum_{i=3}^{m}\alpha_i y_i K_{i1} + b_1^{new}=y_1$
    
    因为： $y_1 - \sum_{i=3}^{m}\alpha_i y_i K_{i1} =y_1 - f(x_1) + \alpha_1 y_1 K_{11} + \alpha_2y_2 K_{21} +b$
    
    所以：
    
    $b n e w 1 = y 1 - f (x 1) + α 1 y 1 K 11 + α 2 y 2 K 21 + b - α n e w 1 y 1 K 11 - α n e w 2 y 2 K 21$ $b_1^{new}= y_1 - f(x_1) + \alpha_1 y_1 K_{11} + \alpha_2y_2 K_{21} +b - \alpha_1^{new} y_1 K_{11} - \alpha_2^{new} y_2 K_{21}$
    
    $b n e w 1 = - E 1 - y 1 K 11 (α n e w 1 - α 1) - y 2 K 21 (α n e w 2 - α 2) + b$ $b_1^{new} = -E_1- y_1 K_{11}(\alpha_1^{new}-\alpha_1) - y_2 K_{21}(\alpha_2^{new}-\alpha_2) +b$
    
    其中 $\alpha_1,\alpha_2,b$ 为旧的值， $\alpha_1^{new},\alpha_2^{new},b^{new}$ 为优化后的值。
  2. 如果 $0 < \alpha_2< C$ ，则 $(x_2,y_2)$ 为支持向量，同理可以得到：
    
    $b n e w 2 = - E 2 - y 1 K 12 (α n e w 1 - α 1) - y 2 K 22 (α n e w 2 - α 2) + b$ $b_2^{new} = -E_2- y_1 K_{12}(\alpha_1^{new}-\alpha_1) - y_2 K_{22}(\alpha_2^{new}-\alpha_2) +b$
  3. 如果同时有 $0 < \alpha_1< C，0 < \alpha_2< C$ ，那么 $b_1^{new}=b_2^{new}$ 。
  4. 如果均不满足 $0<\alpha_i<C$ ，这时选择他们的中点： $b^{new}=\frac{b_1^{new}+b_2^{new}}{2}$
  启发式选择变量
  
  由Osuna定理知道，只要选取的 $\alpha_i$ 和 $\alpha_j$ 中有一个不满足KKT条件的，那么最初的那个目标函数就会在迭代之后减小。直观来看，如果KKT条件违背的越厉害，那么变量更新后可能导致目标函数减小的更厉害。于是，SMO可以首先取违背KKT条件程度最大的向量，第二个变量选取一个使目标函数减小最快的变量。
  
  （摘自【机器学习详解】SMO算法剖析）
  
  选取第一个变量
  
  第一个变量的选择称为外循环.
  
  首先遍历整个样本集，选择违反KKT条件的 $\alpha_i$ 作为第一个变量，接着依据相关规则选择第二个变量(见下面分析),对这两个变量采用上述方法进行优化。
  
  当遍历完整个样本集后，遍历非边界样本集 $(0<\alpha_i<C)$ 中违反KKT的 $\alpha_i$ 作为第一个变量，同样依据相关规则选择第二个变量，对此两个变量进行优化。
  
  当遍历完非边界样本集后，再次回去，遍历整个样本集寻找，即在整个样本集与非边界样本集上来回切换，寻找违反KKT条件的 $\alpha_i$ 作为第一个变量。直到遍历完整个样本集后，没有违反KKT条件 $\alpha_i$ ，然后退出。
  边界上的样本对应的 $α\alpha_i=0$ 或者 $\alpha_i=C$ ，在优化过程中很难变化，然而非边界样本 $0<\alpha_i<C$ 会随着对其他变量的优化有大的变化。
  
  第二个变量的选择
  
  SMO称第二个变量的选择过程为内循环.
  
  假设在外循环中找到的第一个变量记为 $\alpha_1$ ，那么第二个变量的选择我希望能使 $\alpha_2$ 有较大的变化。由于 $\alpha_2$ 是依赖于 $|E_1−E_2|$ ，当 $E_i$ 为正时，那么选择最小的 $E_i$ 作为 $E_2$ ,如果 $E_i$ 为负，选择最大 $E_i$ 作为 $E_2$ ，通常为每个样本的 $E_i$ 保存在一个列表中，选择最大的 $|E_1−E_2|$ 来近似最大化步长。
  有时按照上述的启发式选择第二个变量，不能够使得函数值有足够的下降，这时按下述步骤:
  
  首先在非边界集上选择能够使函数值足够下降的样本作为第二个变量，
  如果非边界集上没有，则在整个样本集上选择第二个变量，
  如果整个样本集依然不存在，则重新选择第一个变量。
  
  后记
  
  SVM从头到尾推一边，发现许多概念都更熟悉了。许多推导步骤，我也尽可能写在博客中了，工作量的确挺大的。下次再把SVM的代码仔细研究研究。
  
  参考资料：
  
  《机器学习》周志华
  
  【机器学习详解】SMO算法剖析
  
  [支持向量机（五）SMO算法](http://www.cnblogs.com/jerrylead/archive/2011/03/18/1988419.html)
  
  解密SVM系列（三）：SMO算法原理与实战求解

hongbin_xu

关注

4
点赞
踩
2

收藏

觉得还不错? 一键收藏
1
评论
机器学习入门笔记：（4.3）SMO算法

前言前面的博客介绍过使用dlib进行人脸检测、比对、检测特征点等等操作。 python dlib学习（一）：人脸检测 python dlib学习（二）：人脸特征点标定 python dlib学习（五）：比对人脸这次再将那些操作综合一下，进行人脸聚类。识别图片中的人脸，并分类。这里使用的是聚类，属于无监督学习。这里对每个人脸的区分与比对人脸中原理相同，将人脸映射到128D的空间中，计算彼此之
复制链接

扫一扫