从零开始学习SVM（三）---SMO算法原理

最新推荐文章于 2024-04-18 20:29:45 发布

zhupc_

最新推荐文章于 2024-04-18 20:29:45 发布

阅读量738

点赞数

分类专栏：机器学习文章标签： svm 机器学习

本文链接：https://blog.csdn.net/u014296502/article/details/78973930

版权

机器学习专栏收录该内容

26 篇文章 3 订阅

订阅专栏

前两节我们一直在介绍svm的原理，优化目标函数，并且已经推导出了最后的目标函数，现在终于要求解这个问题了并得到模型，在上一节《从零开始学习SVM（二）—松弛变量》中我们介绍了松弛变量的的概念，推导出了加入松弛变量后的目标函数并且后面将会一直使用这个目标函数：

m a x α \sum i = 1 m α i - 1 2 \sum i = 1 m \sum j = 1 m α i α j y i y j x T i x j （ 1 ）

$max_\alpha \quad\sum_{i=1}^{m}\alpha_i-\frac{1}{2}\sum_{i=1}^{m}{\sum_{j=1}^{m}\alpha_i\alpha_jy_iy_jx_i^Tx_j} \quad （1）$

s . t . \sum i = 1 m α i y i = 0 (1.1)

$s.t. \quad \sum_{i=1}^{m}\alpha_iy_i=0\quad(1.1)$

C ⩾ α i ⩾ 0, i = 1, 2, \dots, m

$C\geqslant\alpha_i \geqslant0,i=1,2,\dots,m$
KKT条件：

α i ⩾ 0

$\alpha_i\geqslant0$

y i f (x i) - 1 + ζ i ⩾ 0

$y_if(x_i)-1+\zeta_i\geqslant0$

α i (y i f (x i) - 1 + ζ i) = 0

$\alpha_i(y_if(x_i)-1+\zeta_i)=0$

ζ i ⩾ 0, u i ζ i = 0

$\zeta_i\geqslant0,u_i\zeta_i=0$
有了优化目标之后，我们终于到了介绍如何求出最优解的部分：SMO算法。当然解决办法有很多中，在笔者查看了众多资料后大多数就是推荐使用SMO（Sequential Minimal Optimization；序列最小优化）算法，这种算法高效，求解时间短。
还记得我们的模型公式吗？

f (x) = w T x + b

$f(x)=w^Tx+b$
也就是说我们求解出来w与b这个模型就算得到了，还记得在第一节中我们在得到最初的目标函数的对偶函数时候，我们得到了

w $w$ 的另一种表示方式

⅁ L ( w , b , a ) ⅁ w = w - \sum i = 1 m α i y i x i = 0

$\frac{ \Game L(w,b,a)}{\Game w}=w-\sum_{i=1}^{m}\alpha_iy_ix_i=0$ 代入模型函数

f (x) = \sum i, j m α i y i (x i) T x j + b （ 2 ）

$f(x)=\sum_{i,j}^{m}\alpha_iy_i(x_i)^Tx_j+b\quad （2）$ 也就是说我们只要求解出每个样本对应的拉格朗日乘子

αi $\alpha_i$ 就能求出模型。可是这

αi= $\alpha_i=$ {

α1,α2,…,αm $\alpha_1,\alpha_2,\dots,\alpha_m$ }这参数也太多了，但是别忘了我们求出了优化目标函数的对偶函数函数（1），但是这仍然要求很多参数啊，别急我们先介绍一个优化目标的思路。就拿最近比较火的游戏《荒野求生》又叫吃鸡的游戏来说吧，在游戏过程中经常会在一段时间后刷圈，只有在圈内我们才能苟活，每刷一次我们就得往圈内跑，可是怎么跑呢？各路都有人，我们是直直的跑（一般这样会很快gg），还是绕开各路人马，让他们厮杀我们坐收渔翁之利？我们想要安全的到达圈内当然是绕着跑啦。这与我们的求解思路是不是很一直？我们想要求解出参数，想要直奔目标直接对目标函数求解肯定很费事，我敢说你很快就会gg,但是如果我们绕开这个目标函数最优解，而是通过先优化其中的两个，其他的不管，然后循环这样操作，直到所有的参数

αi $\alpha_i$ 都满足KKT条件是不是也可以达到我们的目标呢？当然是啦，看下图，红线代表直奔目标，这样是很快，但是很容易gg啊，还是蓝线我们一点一点的达到目标，我们先达到一个方向的最优，先按照一个方向固定其他方式，当所有方向都达到最优我们也达到了我们目标
这里写图片描述

同理，SMO算法就是让我们先固定其中的两个参数

α1,α2 $\alpha_1,\alpha_2$ 其他的不管，然后依次随机的抽取两个

α $\alpha$ 对，知道所有的

α $\alpha$ 都满足KKT条件，那么不就得到了我们优化目标了吗？
为什么要固定两个呢？一个，两个，三个，四个不行吗？
还记得我们之前得到的一个kkt条件吗？就是上面的（1.1）约束条件:

\sum i = 1 m α i y i = 0

$\sum_{i=1}^{m}\alpha_iy_i=0$
没错就是它，因为我们要满足这个条件，所以我们只改变其中的一个

αi $\alpha_i$ 肯定不行啊，因为这样还会等于0吗？那么这么说3个4个也可以啊，是可以啊，但是2个不是简单嘛！！也就是说

α 1 y 1 + α 2 y 2 + \sum i = 3 m α i y i = 0

$\alpha_1y_1+\alpha_2y_2+\sum_{i=3}^{m}\alpha_iy_i=0$

α 1 y 1 + α 2 y 2 = - \sum i = 3 m α i y i

$\alpha_1y_1+\alpha_2y_2=-\sum_{i=3}^{m}\alpha_iy_i$ 令：

α 1 y 1 + α 2 y 2 = ϵ

$\alpha_1y_1+\alpha_2y_2=\epsilon$ 无论你怎么改变

α1,α2 $\alpha_1,\alpha_2$ 反正和为常量。设更新后的

α $\alpha$ 分别为

αnew1,αnew2 $\alpha_1^{new},\alpha_2^{new}$ ,所以

α 1 y 1 + α 2 y 2 = α n e w 1 y 1 + α n e w 2 y 2 = ϵ (3)

$\alpha_1y_1+\alpha_2y_2=\alpha_1^{new}y_1+\alpha_2^{new}y_2=\epsilon \quad (3)$ 可是哪些

α $\alpha$ 需要被该变呢？有什么标准呢？当然是KKT条件啦，只要满足约束就是好的，不满足则需要改变进行优化。还记得这个约束条件吗？

s . t . y i (w T x i + b) ⩾ 1 ， i = 1, 2, 3 \dots, m .

$s.t.\quad y_i(w^Tx_i+b)\geqslant1，i=1,2,3\dots,m.$ 也就是

yif(xi)⩾1 $y_if(x_i)\geqslant1$ 与（1.1）约束，首先找到满足约束的

α $\alpha$ ,我们可知：

α i = 0, y i f (x i) > 1 表 示 被 正 确 分 类 到 两 个 边 界 线 之 外

$\alpha_i=0,y_if(x_i)>1\quad表示被正确分类到两个边界线之外$

0 ⩽ α i ⩽ C, y i f (x i) = 1 表 示 在 两 个 边 界 之 上 ， 属 于 支 持 向 量

$0\leqslant\alpha_i\leqslant C,y_if(x_i)=1\quad表示在两个边界之上，属于支持向量$

α i = C, y i f (x i) < 1 表 示 在 两 个 边 界 之 内

$\alpha_i= C,y_if(x_i)<1\quad表示在两个边界之内$
以上都是满足约束的，除了这些其他的都是不满足约束的，也就是需要优化的。
由公式（3），我们假设

y1与y2 $y_1与y_2$ 异号，即

α1−α2=ϵ $\alpha_1-\alpha_2=\epsilon$ 因为

0<α1,α2<C;α2=α1−ϵ $0<\alpha_1,\alpha_2<C;\quad \alpha_2=\alpha_1-\epsilon \quad$ 则：

−ϵ<α2<C−ϵ $-\epsilon<\alpha_2<C-\epsilon$ 因为

0<α2<C $0<\alpha_2<C$ 这个条件，所以我们取两者的交集，即：

m a x (0, - ϵ) < α 2 < m i n (C, C - ϵ)

$max(0,-\epsilon)<\alpha_2<min(C,C-\epsilon)$ 同理可得：

m a x (0, ϵ) < α 2 < m i n (C, C + ϵ)

$max(0,\epsilon)<\alpha_2<min(C,C+\epsilon)$

黄色区域是满足约束的区域，不仅要在黄色区域内，并且还得在

α1−α2=ϵ $\alpha_1-\alpha_2=\epsilon$ 这条直线上。如果两者是同号的同理可得：这里写图片描述

我为了简化公式，把

α1 $\alpha_1$ 用

α2 $\alpha_2$ 表示

α 1 y 1 + α 2 y 2 = - \sum i = 3 m α i y i = ϵ

$\alpha_1y_1+\alpha_2y_2=-\sum_{i=3}^{m}\alpha_iy_i=\epsilon$ 两边同乘以

y1 $y_1$

α 1 + y 1 y 2 α 2 = - y 1 \sum i = 3 m α i y i = - y 1 ϵ

$\alpha_1+y_1y_2\alpha_2=-y_1\sum_{i=3}^{m}\alpha_iy_i=-y_1\epsilon$

α 1 = - y 1 \sum i = 3 m α i y i - y 1 y 2 α 2

$\alpha_1=-y_1\sum_{i=3}^{m}\alpha_iy_i-y_1y_2\alpha_2$ 我们把

a1 $a_1$ 带入原目标函数使得原目标函数只带有

α2 $\alpha_2$ (很多人到了这里就贴其他地方弄来的结果，也没有具体推到，直接看到结果我也很茫然，索性自己推导一遍)：

\sum i = 1 m α i - 1 2 \sum i = 1 m \sum j = 1 m α i α j y i y j x T i x j

$\sum_{i=1}^{m}\alpha_i-\frac{1}{2}\sum_{i=1}^{m}{\sum_{j=1}^{m}\alpha_i\alpha_jy_iy_jx_i^Tx_j}$ 可得：

α 1 + α 2 + \sum i = 3 m α i - 1 2 α 1 α 1 y 1 y 1 K (x 1, x 1) - 1 2 α 1 α 2 y 1 y 2 K (x 1, x 2) - 1 2 α 2 α 1 y 2 y 1 K (x 2, x 1) - 1 2 α 2 α 2 y 2 y 2 K (x 2, x 2)

$\alpha_1+\alpha_2+\sum_{i=3}^{m}\alpha_i-\frac{1}{2}\alpha_1\alpha_1y_1y_1K(x_1,x_1)-\frac{1}{2}\alpha_1\alpha_2y_1y_2K(x_1,x_2)-\frac{1}{2}\alpha_2\alpha_1y_2y_1K(x_2,x_1)-\frac{1}{2}\alpha_2\alpha_2y_2y_2K(x_2,x_2)$

- 1 2 α 1 y 1 \sum j = 3 m y j α j K (x 1, x j) - 1 2 α 2 y 2 \sum j = 3 m y j α j K (x 2, x j) - 1 2 α 1 y 1 \sum i = 3 m y i α j K (x i, x 1)

$-\frac{1}{2}\alpha_1y_1\sum_{j=3}^{m}y_j\alpha_jK(x_1,x_j)-\frac{1}{2}\alpha_2y_2\sum_{j=3}^{m}y_j\alpha_jK(x_2,x_j)-\frac{1}{2}\alpha_1y_1\sum_{i=3}^{m}y_i\alpha_jK(x_i,x_1)$

- 1 2 α 2 y 2 \sum i = 3 m y i α j K (x i, x 2) - 1 2 \sum i = 3 m \sum j = 3 m α i α j y i y j K (x i, x j)

$-\frac{1}{2}\alpha_2y_2\sum_{i=3}^{m}y_i\alpha_jK(x_i,x_2)-\frac{1}{2}\sum_{i=3}^{m}{\sum_{j=3}^{m}\alpha_i\alpha_jy_iy_jK(x_i,x_j)}$ 令：

\sum i = 3 m α i - 1 2 \sum i = 3 m \sum j = 3 m α i α j y i y j K (x i, x j) = C o n s t (常 量)

$\sum_{i=3}^{m}\alpha_i-\frac{1}{2}\sum_{i=3}^{m}{\sum_{j=3}^{m}\alpha_i\alpha_jy_iy_jK(x_i,x_j)}=Const(常量)$

Q = - y 1 \sum i = 3 m α i y i; y 1 y 2 α 2 = W α 2

$Q=-y_1\sum_{i=3}^{m}\alpha_iy_i;\quad y_1y_2\alpha_2=W\alpha_2$

α 1 = Q - W α 2

$\alpha_1=Q-W\alpha_2$

V 1 = \sum j = 3 m y j α j K (x 1, x j)

$V_1=\sum_{j=3}^{m}y_j\alpha_jK(x_1,x_j)$

V 2 = \sum j = 3 m y j α j K (x 2, x j)

$V_2=\sum_{j=3}^{m}y_j\alpha_jK(x_2,x_j)$ 整理可得:

α 1 + α 2 - 1 2 α 1 α 1 K (x 1, x 1) - α 1 α 2 W K (x 1, x 2) - 1 2 α 2 α 2 K (x 2, x 2) -

$\alpha_1+\alpha_2-\frac{1}{2}\alpha_1\alpha_1K(x_1,x_1)-\alpha_1\alpha_2WK(x_1,x_2)-\frac{1}{2}\alpha_2\alpha_2K(x_2,x_2)-$

α 1 y 1 V 1 - α 2 y 2 V 2 - C o n s t

$\alpha_1y_1V_1-\alpha_2y_2V_2-Const$ 带入

a1 $a_1$ 可得：

(Q - W α 2) + α 2 - 1 2 (Q - W α 2) 2 K (x 1, x 1) - α 2 (Q - W α 2) W K (x 2, x 1) -

$(Q-W\alpha_2)+\alpha_2-\frac{1}{2}(Q-W\alpha_2)^2K(x_1,x_1)-\alpha_2(Q-W\alpha_2)WK(x_2,x_1)-$

1 2 α 2 α 2 K (x 2, x 2) - (Q - W α 2) y 1 V 1 - α 2 y 2 V 2 - C o n s t

$\frac{1}{2}\alpha_2\alpha_2K(x_2,x_2)-(Q-W\alpha_2)y_1V_1-\alpha_2y_2V_2-Const$ 其中K(x,y)代表x与y的内积。对

α2进行求导 $\alpha_2进行求导$ ：

① 1 - W + (Q - W α 2) W k (x 1, x 1) -

$①\quad 1-W+(Q-W\alpha_2)Wk(x_1,x_1)-$

(Q - 2 W α 2) W K (x 1, x 2) - α 2 K (x 2, x 2) + y 2 V 1 - y 2 V 2

$(Q-2W\alpha_2)WK(x_1,x_2)-\alpha_2K(x_2,x_2)+y_2V_1-y_2V_2$

② 1 - W + W Q (K (x 1, x 1) - K (x 1, x 2) ） - α 2 (2 K (x 1, x 2) - K (x 1, x 1) - K (x 2, x 2))) + y 2 (V 1 - V 2)

$②\quad 1-W+WQ(K(x_1,x_1)-K(x_1,x_2)）-\alpha_2(2K(x_1,x_2)-K(x_1,x_1)-K(x_2,x_2)))+y_2(V_1-V_2)$

③ 1 - W + y 2 (V 1 - V 2) + W Q (K (x 1, x 1) - K (x 1, x 2) ） = α 2 (2 K (x 1, x 2) - K (x 1, x 1) - K (x 2, x 2)))

$③\quad 1-W+y_2(V_1-V_2)+WQ(K(x_1,x_1)-K(x_1,x_2)）=\alpha_2(2K(x_1,x_2)-K(x_1,x_1)-K(x_2,x_2)))$ 这时候我们就求到了一般形式，我们继续简化公式：

f (x i) = w T x i + b

$f(x_i)=w^Tx_i+b$ 把w换为之前对目标函数求偏导获取的值：

f (x i) = \sum j m α j y j K (x i, x j) + b

$f(x_i)=\sum_{j}^{m}\alpha_jy_jK(x_i,x_j)+b$ 所以:

V i = \sum j = 3 m y j α j K (x i, x j) = f (x i) - \sum j = 1 2 y j α j K (x i, x j) - b

$V_i=\sum_{j=3}^{m}y_j\alpha_jK(x_i,x_j)=f(x_i)-\sum_{j=1}^{2}y_j\alpha_jK(x_i,x_j)-b$ 带入上式可得：

1 - W + y 2 (f (x 1) - f (x 2) - \sum j = 1 2 y j α j K (x 1, x j) + \sum j = 1 2 y j α j K (x 2, x j)) + W Q (K (x 1, x 1) - K (x 1, x 2) ）

$\quad 1-W+y_2(f(x_1)-f(x_2)-\sum_{j=1}^{2}y_j\alpha_jK(x_1,x_j)+\sum_{j=1}^{2}y_j\alpha_jK(x_2,x_j))+WQ(K(x_1,x_1)-K(x_1,x_2)）$

= α 2 (2 K (x 1, x 2) - K (x 1, x 1) - K (x 2, x 2)))

$=\alpha_2(2K(x_1,x_2)-K(x_1,x_1)-K(x_2,x_2)))$ 这个整体为：

- \sum j = 1 2 y j α j K (x 1, x j) + \sum j = 1 2 y j α j K (x 2, x j) =

$-\sum_{j=1}^{2}y_j\alpha_jK(x_1,x_j)+\sum_{j=1}^{2}y_j\alpha_jK(x_2,x_j)=$

y 2 α 2 K (x 2, x 2) - y 1 α 1 K (x 1, x 1)

$y_2\alpha_2K(x_2,x_2)-y_1\alpha_1K(x_1,x_1)$ 步步为营，接着我们替换Q：

α n e w 1 + W α n e w 2 = α 1 + W α 2 = - y 1 \sum i = 3 m α i y i = Q

$\alpha_1^{new}+W\alpha_2^{new}=\alpha_1+W\alpha_2=-y_1\sum_{i=3}^{m}\alpha_iy_i=Q$ 心好累，终于到了更新

αnew2的一步了 $\alpha_2^{new}的一步了$

① α n e w 2 (2 K (x 1, x 2) - K (x 1, x 1) - K (x 2, x 2))) =

$①\quad\alpha_2^{new}(2K(x_1,x_2)-K(x_1,x_1)-K(x_2,x_2)))=$

α 2 (2 K (x 1, x 2) - K (x 1, x 1) - K (x 2, x 2))) + y 2 (f (x 1) - f (x 2) + y 2 - y 1)

$\alpha_2(2K(x_1,x_2)-K(x_1,x_1)-K(x_2,x_2)))+y_2(f(x_1)-f(x_2)+y_2-y_1)$

② α n e w 2 = α 2 + y 2 ( f ( x 1 ) - y 1 - f ( x 2 ) + y 2 ) ( 2 K ( x 1 , x 2 ) - K ( x 1 , x 1 ) - K ( x 2 , x 2 ) ) )

$②\quad\alpha_2^{new}=\alpha_2+\frac{y_2(f(x_1)-y_1-f(x_2)+y_2)}{(2K(x_1,x_2)-K(x_1,x_1)-K(x_2,x_2)))}$

③ α n e w 2 = α 2 + y 2 ( E 1 - E 2 ) η

$③\quad\alpha_2^{new}=\alpha_2+\frac{y_2(E_1-E_2)}{\eta}$
结合上面的

α $\alpha$ 的取值范围：

0<αnew2<C $0<\alpha_2^{new}< C$ 可得：

那我们 $b$ 如何更新呢?因为在更新 $\alpha$ 之后，那么标签 $y_i$ 应该与 $f(x_i)$ 值相等（x_i是支持向量）：

① y i = f (x i) = \sum j = 1 2 y j α j K (x i, x j) + b i

$①\quad y_i=f(x_i)=\sum_{j=1}^{2}y_j\alpha_jK(x_i,x_j)+b_i$ 经过移项后得到：

② y i - \sum j = 3 2 y j α j K (x i, x j) - y 1 α n e w 1 K (x i, x 1) - y 2 α n e w 2 K (x i, x 2) = b n e w i

$②\quad y_i-\sum_{j=3}^{2}y_j\alpha_jK(x_i,x_j)-y_1\alpha_1^{new}K(x_i,x_1)-y_2\alpha_2^{new}K(x_i,x_2)=b_i^{new}$ 结合

Ei $E_i$ ：

E i = f (x i) - y i =

$E_i=f(x_i)-y_i=$

y 1 α 1 K (x i, x 1) + y 2 α 2 K (x i, x 2) + \sum j = 3 2 y j α j K (x i, x j) + b i - y i

$y_1\alpha_1K(x_i,x_1)+y_2\alpha_2K(x_i,x_2)+\sum_{j=3}^{2}y_j\alpha_jK(x_i,x_j)+b_i-y_i$
猛然发现两个有共同项

yi−∑2j=3yjαjK(xi,xj) $y_i-\sum_{j=3}^{2}y_j\alpha_jK(x_i,x_j)$ 啊！那我们联立两个方程好了：

b n e w i = - E i + b i + y 1 α 1 K (x i, x 1) + y 2 α 2 K (x i, x 2)

$b_i^{new}=-E_i+b_i+y_1\alpha_1K(x_i,x_1)+y_2\alpha_2K(x_i,x_2)$

- y 1 α n e w 1 K (x i, x 1) - y 2 α n e w 2 K (x i, x 2)

$-y_1\alpha_1^{new}K(x_i,x_1)-y_2\alpha_2^{new}K(x_i,x_2)$
但是我们取哪个b呢？当然是哪个

αi $\alpha_i$ 在（0，C）区间内取哪个，因为符合这个要求的点才是“支持向量”啊，不符合我们当然就不要，但是如何碰巧都在区间内呢？那我们就折中取b1与b2的平均值。
亲爱的读者如果你能看到这，我真心的感谢你对我的支持与认可，如果有任何疑问欢迎交流提问。我真的很想把代码也写上去，这样更容易理解上述过程，当时篇幅过大，使用csdn的markdown编辑器很烦，每写一句话都会重新解析，偶尔会使得浏览器死掉难以继续写下去。到此我们的线性分类就结束了，后面会推出线性分类实例与线性不可分的介绍，欢迎关注我的微信公共号

zhupc_

关注

0
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
从零开始学习SVM（三）---SMO算法原理

前两节我们一直在介绍svm的原理，优化目标函数，并且已经推导出了最后的目标函数，现在终于要求解这个问题了并得到模型，在上一节《从零开始学习SVM（二）—松弛变量》中我们介绍了松弛变量的的概念，推导出了加入松弛变量后的目标函数并且后面将会一直使用这个目标函数： maxα∑i=1mαi−12∑i=1m∑j=1mαiαjyiyjxTixj（1）max_\alpha \quad\sum_{i=1}^{m
复制链接

扫一扫