从零开始-Machine Learning学习笔记(12)-SMO算法解析

最新推荐文章于 2023-04-20 00:17:20 发布

kabuto_hui

最新推荐文章于 2023-04-20 00:17:20 发布

阅读量737

点赞数 1

分类专栏：机器学习从零开始-Machine Learning学习笔记

本文链接：https://blog.csdn.net/kabuto_hui/article/details/80369793

版权

机器学习同时被 2 个专栏收录

49 篇文章 3 订阅

订阅专栏

从零开始-Machine Learning学习笔记

45 篇文章 8 订阅

订阅专栏

SMO-Sequential Minimal Optimization，序列最小优化，SMO的基本思路就是：先固定 $\alpha_i$ 之外的所有参数，然后求 $\alpha_i$ 的极值。但是问题中存在约束条件： $\sum_{i=0}^{m}\alpha_iy_i=0$ 。如果固定了 $\alpha_i$ 之外的其他变量，则 $\alpha_i$ 可以由其他的变量导出。于是，一次只留一个参数，固定其余参数的方法在这里是不适用的，但是这个思想却给了我们不错的启发。那么，SMO可以每次选择两个变量 $\alpha_i$ 和 $\alpha_j$ ，并固定其他参数。这样，在参数初始化之后，SMO不断迭代重复下面的步骤，直至收敛：

选取一对新的 $\alpha_i$ 和 $\alpha_j$ ;
固定 $\alpha_i$ 和 $\alpha_j$ 之外的参数，求解前面的优化问题，获取更新后的 $\alpha_i$ 和 $\alpha_j$ 。

假设我们选择 $\alpha_1$ 与 $\alpha_2$ 是变量，其余的 $\alpha_i$ 是定值，常数，那么原来的目标函数：

$min α 1 2 \sum i = 1 N \sum j = 1 N α i α j y i y j K (x i \cdot x j) - \sum i = 1 N α i s . t . \sum i = 1 N α i y i = 0 0 \leq α i \leq C, i = 1, 2, \dots N$ $\begin{array}{l} \mathop {\min }\limits_\alpha \;\;\frac{1}{2}\sum\limits_{i = 1}^N {\sum\limits_{j = 1}^N {{\alpha _i}{\alpha _j}{y_i}{y_j}K\left( {{x_i} \cdot {x_j}} \right)} } - \sum\limits_{i = 1}^N {{\alpha _i}} \\ s.t.\;\;\sum\limits_{i = 1}^N {{\alpha _i}{y_i}} = 0\\ \;\;\;\;\;0 \le {\alpha _i} \le C,\;\;\;\;\;i = 1,2, \ldots N \end{array}$

就变为对 $\alpha_1$ 与 $\alpha_2$ 的优化：

min α 1, α 2 W (α 1, α 2)

$\begin{array}{l} \mathop {\min }\limits_{{\alpha _1},{\alpha _2}} W\left( {{\alpha _1},{\alpha _2}} \right)\\ \end{array}$

1. 原目标函数化简

我们来逐步化简原来的目标函数，其中只有 $\alpha_1$ 与 $\alpha_2$ 是变量，其余的都是常数：

min α 1 2 \sum i = 1 N \sum j = 1 N α i α j y i y j K (x i \cdot x j) - \sum i = 1 N α i

我们分别取

$i=1,j=1$

$i=1,j=2$

$i=1,j\neq1,2$

$j=1,i\neq1,2$

$i=2,j=1$

$i=2,j=2$

$i=2,j \neq1,2$

$j=2,i\neq1,2$

$i\neq1,2,j\neq1,2$

这样我们就可以把目标函数化成只有变量 $\alpha_1$ 与 $\alpha_2$ ，其余的项都可以合并为常数C：

min α 1 2 \sum i = 1 N \sum j = 1 N α i α j y i y j K (x i \cdot x j) - \sum i = 1 N α i = min α 1 2 [α 21 K 11 + α 1 α 2 y 1 y 2 K 12 + 2 \sum N j = 3 α 1 α j y 1 y j K 1 j + α 2 α 1 y 2 y 1 K 21 + α 22 K 22 + 2 \sum N j = 3 α 2 α j y 2 y j K 2 j + C 1] - (α 1 + α 2) - C 2 = min α 1 2 [α 21 K 11 + α 22 K 22 + 2 α 1 α 2 y 1 y 2 K 12 + 2 \sum N j = 3 α 1 α j y 1 y j K 1 j + 2 \sum N j = 3 α 2 α j y 2 y j K 2 j] - (α 1 + α 2) + C = min α 1 2 [α 21 K 11 + α 22 K 22 + 2 α 1 α 2 y 1 y 2 K 12 + 2 α 1 y 1 v 1 + 2 α 2 y 2 v 2] - (α 1 + α 2) + C

$\begin{array}{l} \mathop {\min }\limits_\alpha \;\;\frac{1}{2}\sum\limits_{i = 1}^N {\sum\limits_{j = 1}^N {{\alpha _i}{\alpha _j}{y_i}{y_j}K\left( {{x_i} \cdot {x_j}} \right)} } - \sum\limits_{i = 1}^N {{\alpha _i}} \\ =\mathop {\min }\limits_\alpha \frac{1}{2}[\alpha_1^2K_{11}+\alpha_1\alpha_2y_1y_2K_{12}+2\sum_{j=3}^{N}\alpha_1\alpha_jy_1y_jK_{1j}\\\ \ \ \ + \alpha_2\alpha_1y_2y_1K_{21}+\alpha_2^2K_{22}+2\sum_{j=3}^{N}\alpha_2\alpha_jy_2y_jK_{2j}+C_1]\\\ \ \ \ -(\alpha_1+\alpha_2)-C_2 \\ =\mathop {\min }\limits_\alpha \frac{1}{2}[\alpha_1^2K_{11}+\alpha_2^2K_{22}+2\alpha_1\alpha_2y_1y_2K_{12}+2\sum_{j=3}^{N}\alpha_1\alpha_jy_1y_jK_{1j}\\\ \ \ \ +2\sum_{j=3}^{N}\alpha_2\alpha_jy_2y_jK_{2j}]-(\alpha_1+\alpha_2)+C\\ =\mathop {\min }\limits_\alpha \frac{1}{2}[\alpha_1^2K_{11}+\alpha_2^2K_{22}+2\alpha_1\alpha_2y_1y_2K_{12}+2\alpha_1y_1v_1+2\alpha_2y_2v_2]-(\alpha_1+\alpha_2)+C \end{array}$
其中：

v 1 = \sum j = 3 N α j y j K 1 j v 2 = \sum j = 3 N α j y j K 2 j

$v_1 =\sum_{j=3}^{N}\alpha_jy_jK_{1j}\\ v_2 =\sum_{j=3}^{N}\alpha_jy_jK_{2j}$
于是，我们的目标函数就转化为上式的样子。

2. 解的范围

要求解上述的优化问题，必定先确定解的范围，根据原来的约束条件我们知道：

α 1 y 1 + α 2 y 2 = K 0 < α 1 < C 0 < α 2 < C

$\alpha_1y_1+\alpha_2y_2 = K \\ 0<\alpha_1<C\\ 0<\alpha_2<C$
其中我们知道

y2i=1 y i 2 = 1 $y_i^2=1$ ，所以对于第一个约束条件我们可以有两种表示方式：

$y_1=y_2时，\alpha_1+\alpha_2=K$

$y_1\neq y_2时，\alpha_1-\alpha_2=K$

这里写图片描述

k具体是多少我们并不关心，但是我们知道α1和α2的取值都落在途中的直线上。k无非就是一个截距，随着k的变化，这根直线在方框内会上下移动，交点也变，但是一定要在方框范围内，所以边界一定会落在方框与直线的交点上。设L为α2可能的最小取值，H为α2可能的最大取值,那么有：

$y_1=y_2时，\alpha_1+\alpha_2=K，则\alpha_2=K-\alpha_1$

我们都知道 $0<\alpha_1<C,0<\alpha_2<C$ ;

当 $\alpha_1=C$ 时， $\alpha_2$ 取得最小值,即 $\alpha_2=K-C$ ,但是， $0<\alpha_2$ ,所以最小值在这两者中取得，于是：

$L = m a x {0, K - C} = m a x {0, α 1 + α 2 - C}$ $L = max\{0,K-C\}=max\{0,\alpha_1+\alpha_2-C\}$
当 $\alpha_1=0$ 时， $\alpha_2$ 取得最大值,即 $\alpha_2=K$ 但是， $\alpha_2<C$ ,所以最大值在这两者中取得，于是：
$H = m i n {K, C} = m i n {α 1 + α 2, C}$ $H=min\{K,C\}=min\{\alpha_1+\alpha_2,C\}$
$y_1\neq y_2时，\alpha_1-\alpha_2=K，则\alpha_2=\alpha_1-K$

我们都知道 $0<\alpha_1<C,0<\alpha_2<C$ ;

当 $\alpha_1=0$ 时， $\alpha_2$ 取得最小值,即 $\alpha_2=-K$ 但是， $0<\alpha_2$ 以最小值在这两者中取得，于是：

L = m a x {0, - K} = m a x {0, α 2 - α 1}

$L = max\{0,-K\}=max\{0,\alpha_2-\alpha_1\}$

当 $\alpha_1=C$ 时， $\alpha_2$ 取得最大值,即 $\alpha_2=C-K$ 但是， $\alpha_2<C$ ,所以最大值在这两者中取得，于是：

H = m i n {C, C - K} = m i n {C, C + α 2 - α 1}

$H=min\{C,C-K\} = min\{C,C+\alpha_2-\alpha_1\}$

3.求解过程

先将 $\alpha_1$ 用 $\alpha_2$ 来表示，因为 $\alpha_1y_1+\alpha_2y_2 = k（const）$ ，两边同时乘以 $y_1$ ,于是有：

α 1 = (k - α 2 y 2) y 1

$\alpha_1 = (k-\alpha_2y_2)y_1$
带入到我们之前化简的目标函数中，那么目标函数就变为只有变量

α2 α 2 $\alpha_2$ 的优化问题了：

min α 1 2 [α 21 K 11 + α 22 K 22 + 2 α 1 α 2 y 1 y 2 K 12 + 2 α 1 y 1 v 1 + 2 α 2 y 2 v 2] - (α 1 + α 2) + C = min α 1 2 [((k - α 2 y 2) y 1) 2 K 11 + 2 (k - α 2 y 2) α 2 y 2 K 12 + 2 (k - α 2 y 2) v 1 + 2 α 2 y 2 v 2] - ((k - α 2 y 2) y 1 + α 2) + C

$\begin{array}{l} \mathop {\min }\limits_\alpha \frac{1}{2}[\alpha_1^2K_{11}+\alpha_2^2K_{22}+2\alpha_1\alpha_2y_1y_2K_{12}+2\alpha_1y_1v_1+2\alpha_2y_2v_2]-(\alpha_1+\alpha_2)+C\\ =\mathop {\min }\limits_\alpha \frac{1}{2}[( (k-\alpha_2y_2)y_1)^2K_{11}+2 (k-\alpha_2y_2)\alpha_2y_2K_{12}\\ \ \ \ +2 (k-\alpha_2y_2)v_1+2\alpha_2y_2v_2]-( (k-\alpha_2y_2)y_1+\alpha_2)+C \end{array}$
其中，v1与v2需要变换一下，不能直接运算，因为SVM的模型为：

f (x) = w T x + b = \sum i = 1 N α i y i K (x i, x j) + b, 则 f (x 1) = α 1 y 1 K 11 + α 2 y 2 K 12 + \sum i = 3 N α i y i K (x i, x j) + b = α 1 y 1 K 11 + α 2 y 2 K 12 + v 1 + b f (x 2) = α 1 y 1 K 12 + α 2 y 2 K 22 + \sum i = 3 N α i y i K (x i, x j) + b = α 1 y 1 K 12 + α 2 y 2 K 22 + v 2 + b

$f(x) = w^Tx+b=\sum_{i=1}^{N}\alpha_iy_iK(x_i,x_j)+b ,则\\ f(x_1) = \alpha_1y_1K_{11}+\alpha_2y_2K_{12}+\sum_{i=3}^{N}\alpha_iy_iK(x_i,x_j)+b =\alpha_1y_1K_{11}+\alpha_2y_2K_{12}+v_1+b \\ f(x_2) = \alpha_1y_1K_{12}+\alpha_2y_2K_{22}+\sum_{i=3}^{N}\alpha_iy_iK(x_i,x_j)+b =\alpha_1y_1K_{12}+\alpha_2y_2K_{22}+v_2+b$
所以可以间接求出v1与v2为：

v 1 = f (x 1) - α 1 y 1 K 11 - α 2 y 2 K 12 - b = f (x 1) - (k - α 2 y 2) K 11 - α 2 y 2 K 12 - b v 2 = f (x 2) - α 1 y 1 K 12 - α 2 y 2 K 22 - b = f (x 2) - (k - α 2 y 2) K 12 - α 2 y 2 K 22 - b

$v_1 = f(x_1)-\alpha_1y_1K_{11}-\alpha_2y_2K_{12}-b =f(x_1)- (k-\alpha_2y_2)K_{11}-\alpha_2y_2K_{12}-b\\ v_2 = f(x_2)-\alpha_1y_1K_{12}-\alpha_2y_2K_{22}-b=f(x_2)- (k-\alpha_2y_2)K_{12}-\alpha_2y_2K_{22}-b \\$
所以，此时目标函数就只是一元函数，我们对其求倒数，并使其为0，就可以求出

α2 α 2 $\alpha_2$ :

\partial W \partial α 2 = 1 2 [2 ((k - α 2 y 2) y 1) (- y 1 y 2) K 11 + 2 α 2 K 22 + 2 (k - 2 α 2 y 2) y 1 y 1 y 2 K 12 + 2 (- y 1 y 2) α 2 (y 1 y 2) K 12 + 2 (- y 1 y 2) y 1 v 1 + 2 y 2 v 2] - (- y 1 y 2 + 1) = (α 2 - k y 2) K 11 + α 2 K 22 + (k y 2 - 2 α 2) K 12 - y 2 v 1 + y 2 v 2 + y 1 y 2 - 1 = α 2 (K 11 + K 22 - 2 K 12) - k y 2 K 11 + k y 2 K 12 - y 2 v 1 + y 2 v 2 + y 1 y 2 - 1 = α 2 (K 11 + K 22 - 2 K 12) - k y 2 K 11 + k y 2 K 12 - y 2 (v 1 - v 2) + y 1 y 2 - 1 = 0

$\begin{array}{l} \frac{\partial W}{\partial \alpha_2} = \frac{1}{2}[2( (k-\alpha_2y_2)y_1)(-y_1y_2)K_{11}+2\alpha_2K_{22}+2(k-2\alpha_2y_2)y_1y_1y_2K_{12}+2(-y_1y_2)\alpha_2(y_1y_2)K_{12}\\ \ \ \ \ \ \ \ \ \ \ +2(-y_1y_2)y_1v_1+2y_2v_2]-(-y_1y_2+1)\\ =(\alpha_2-ky_2)K_{11}+\alpha_2K_{22}+(ky_2-2\alpha_2)K_{12}-y_2v_1+y_2v_2+y_1y_2-1\\ =\alpha_2(K_{11}+K_{22}-2K_{12})-ky_2K_{11}+ky_2K_{12}-y_2v_1+y_2v_2+y_1y_2-1\\ =\alpha_2(K_{11}+K_{22}-2K_{12})-ky_2K_{11}+ky_2K_{12}-y_2(v_1-v_2)+y_1y_2-1=0 \end{array}$

此时我们把v1与v2带入就可以得到迭代公式：

α * 2 (K 11 + K 22 - 2 K 12) = k y 2 (K 11 - K 12) + y 2 (v 1 - v 2) - y 1 y 2 + 1 = k y 2 (K 11 - K 12) + y 2 [f (x 1) - f (x 2) + (k - α 2 y 2) (K 12 - K 11) + α 2 y 2 (K 22 - K 12)] - y 1 y 2 + y 22 = α 2 (K 11 + K 22 - 2 K 12) + y 2 [(f (x 1) - y 1) - (f (x 2) - y 2)]

$\alpha_2^*(K_{11}+K_{22}-2K_{12}) = ky_2(K_{11}-K_{12})+y2(v_1-v_2)-y_1y_2+1\\ =ky_2(K_{11}-K_{12})+y2[f(x_1)-f(x_2)+(k-\alpha_2y_2)(K_{12}-K_{11})+\alpha_2y_2(K_{22}-K_{12})]-y_1y_2+y_2^2\\ =\alpha_2(K_{11}+K_{22}-2K_{12})+y_2[(f(x_1)-y_1)-(f(x_2)-y_2)]$
于是我们可以得到递推公式：

α * 2 = α 2 + y 2 [ ( f ( x 1 ) - y 1 ) - ( f ( x 2 ) - y 2 ) ] K 11 + K 22 - 2 K 12 = α 2 + y 2 E 1 - E 2 η

$\alpha_2^*=\alpha_2+\frac{y_2[(f(x_1)-y_1)-(f(x_2)-y_2)]}{K_{11}+K_{22}-2K_{12}}=\alpha_2+y_2\frac{E_1-E_2}{\eta}$
其中

Ej E j $E_j$ 是预测值与实际值之差，

η=K11+K22−2K12 η = K 11 + K 22 − 2 K 12 $\eta = K_{11}+K_{22}-2K_{12}$

最后将 $\alpha_2$ 的值进行约束：

α n e w 2 = ⎧ ⎩ ⎨ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ H, α * 2, L, α * 2 > H L \leq α * 2 \leq H α * 2 < L

$\alpha_2^{new} = \begin{cases} H, & \alpha_2^*>H \\[2ex] \alpha_2^*, & L\leq\alpha_2^*\leq H \\[2ex] L, & \alpha_2^*<L \\[2ex] \end{cases}$
得到

α2 α 2 $\alpha_2$ 之后就可以由约束条件

α1y1+α2y2=αnew1y1+αnew2=k α 1 y 1 + α 2 y 2 = α 1 n e w y 1 + α 2 n e w = k $\alpha_1y_1+\alpha_2y_2 = \alpha_1^{new}y_1+\alpha_2^{new} = k$ 得到

α1 α 1 $\alpha_1$ ：

α n e w 1 = α 1 + y 1 y 2 (α 2 - α n e w 2)

$\alpha_1^{new} = \alpha_1+y_1y_2(\alpha_2-\alpha_2^{new})$
大部分情况下， $\eta>0$ ，但是当 $\eta\leq0$ 的时候就比较麻烦了，需要更为复杂的求解手段。详情可以见我后面附上的参考博客。在现实中，这种情况不常发生，因此忽略也无伤大雅，在程序中遇到了一般的处理是跳过此次循环。

4、求解w与b

w的求解可以通过： $w^* = \sum\limits_{i = 1}^m {\alpha _i^*{y_i}{x_i}} \\$ 求得。

b可以通过kkt条件求出：

这是原优化问题的KKT条件：

当 $α_i=0$ 时，分类是正确的；
当 $0≤α_i≤C$ 时，这时的样本点是支持向量，处在边界上；
当 $α_i=C$ 时，位于边界之间。

参考上面的KKT条件进行分类讨论：

如果 $0<α_1<C$ ，则(x1,y1)为支持向量，满足 $y_i(∑_{i=1}^mα_iy_iK_{i1}+b_1)=1$ ：

$α * 1 y 1 K 11 + α * 2 y 2 K 21 + \sum i = 3 m α i y i K i 1 + b * 1 = y 1$ $\alpha_1^*y_1K_{11}+\alpha_2^*y_2K_{21}+\sum_{i=3}^{m}\alpha_iy_iK_{i1}+b_1^*=y_1$

$b * 1 = y 1 - \sum i = 3 m α i y i K i 1 - α * 1 y 1 K 11 - α * 2 y 2 K 21 = y 1 - v 1 - α * 1 y 1 K 11 - α * 2 y 2 K 21 = y 1 - [f (x 1) - α 1 y 1 K 11 - α 2 y 2 K 12 - b] - α * 1 y 1 K 11 - α * 2 y 2 K 21 = b 1 - E 1 - y 1 K 11 (α * 1 - α 1) - y 2 K 21 (α * 2 - α 2)$ $b_1^* = y_1-\sum_{i=3}^{m}\alpha_iy_iK_{i1}-\alpha_1^*y_1K_{11}-\alpha_2^*y_2K_{21}\\ = y_1-v_1-\alpha_1^*y_1K_{11}-\alpha_2^*y_2K_{21}\\ = y_1- [f(x_1)-\alpha_1y_1K_{11}-\alpha_2y_2K_{12}-b]-\alpha_1^*y_1K_{11}-\alpha_2^*y_2K_{21}\\ =b_1-E_1-y_1K_{11}(\alpha_1^*-\alpha_1)-y_2K_{21}(\alpha_2^*-\alpha_2)$

2.如果 $0<α_2<C$ ，则(x2,y2)为支持向量,那么可以得到 $b_2$ :

b * 2 = b 2 - E 2 - y 1 K 12 (α * 1 - α 1) - y 2 K 22 (α * 2 - α 2)

$b_2^* =b_2-E_2-y_1K_{12}(\alpha_1^*-\alpha_1)-y_2K_{22}(\alpha_2^*-\alpha_2)$
3.如果同时有

0<α1<C，0<α2<C 0 < α 1 < C ， 0 < α 2 < C $0<α_1<C，0<α_2<C$ ,那么有

b∗1=b∗2 b 1 ∗ = b 2 ∗ $b_1^*=b_2^*$ 。

4.如果均不满足 $0≤α_i≤C$ 就取两者中点： $b^*=\frac{b_1^*+b_2^*}{2}$

在周志华老师的《机器学习》中，还给出了一个更为鲁棒的求法：使用所有支持向量求解的平均值：

b = 1 | S | \sum s \in S (1 y s - \sum i \in S α i y i x T i x s)

$b = \frac{1}{|S|}\sum_{s \in S}(\frac{1}{y_s}-\sum_{i \in S}\alpha_iy_ix_i^Tx_s)$
其中S是所有支持向量的下标集合。

5.总结

SMO的公式推导还是比较复杂的，但是越推就越觉得Platt这些人确实厉害，能推导出如此美丽的公式。钦佩之余，自己又在机器学习的道路上前进了许多，也愈发的觉得自己懂的还是太少，即便是全部推完了这些公式，不会应用的惶恐之心又涌上心头。但是，学无止境，只要一直在路上就一定会到达目的地！

下一篇博客中，我会去研究SMO中启发式的变量选择，看这种方式是如何提高算法的效率的！

参考资料：

周志华《机器学习》-支持向量机

机器学习入门笔记：（4.3）SMO算法

支持向量机（五）SMO算法

kabuto_hui

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
1
评论
从零开始-Machine Learning学习笔记(12)-SMO算法解析

SMO-Sequential Minimal Optimization，序列最小优化，SMO的基本思路就是：先固定αiαi\alpha_i之外的所有参数，然后求αiαi\alpha_i的极值。但是问题中存在约束条件：∑mi=0αiyi=0∑i=0mαiyi=0\sum_{i=0}^{m}\alpha_iy_i=0。如果固定了αiαi\alpha_i之外的其他变量，则αiαi\alpha_i...
复制链接

扫一扫