SVM 支持向量机(3) SMO算法小结

最新推荐文章于 2022-07-21 11:30:37 发布

海淼林

最新推荐文章于 2022-07-21 11:30:37 发布

阅读量313

点赞数

分类专栏：机器学习学习 SVM 文章标签： svm 算法机器学习

本文链接：https://blog.csdn.net/u013648367/article/details/64579295

版权

机器学习同时被 3 个专栏收录

10 篇文章 0 订阅

订阅专栏

学习

7 篇文章 0 订阅

订阅专栏

SVM

4 篇文章 0 订阅

订阅专栏

SMO算法 (Sequential Minimal Optimization)

基本原理: 优化目标函数 $\Psi(\vec{\alpha})$ 时, 每一次迭代的时候固定其中的大部分乘子 $(\alpha_i)$ , 只优化其中两个, 这样优化问题变成求解一个二次型最小值问题, 选择第一个乘子的时候并不是随机选择的, 而是选择违反KKT条件的乘子. 关于推导网上多资料比较多, 下面只给出算法和一些细节.

先给出KKT条件中的互补松驰条件

α i = 0 \Leftrightarrow y i g (x ⃗ i) \geq 1 (1)

$α_i=0 ⇔ y_ig(\vec{x}_i)≥1 \tag{1}$

0 < α i < C \Leftrightarrow y i g (x ⃗ i) = 1 (2)

$0<α_i<C ⇔ y_ig(\vec{x}_i)=1\tag{2}$

α i = C \Leftrightarrow y i g (x ⃗ i) \leq 1 (其 实 是 y i g (x ⃗ i) = 1 - ξ i) (3)

$α_i=C⇔y_ig(\vec{x}_i)≤1\tag{3} \quad(\text{其实是}y_ig(\vec{x}_i)=1-\xi_i)$

g (x ⃗) = \sum j α j K (x ⃗ j, x ⃗) + b

$g(\vec{x})=\sum_j{\alpha_jK(\vec{x}_j,\vec{x})+b}$

注意到 $1=y_iy_i$ , 把这个式子代入(1)~(3), 移项得KKT条件另一种形式

α i = 0 \Leftrightarrow y i E i \geq 0 (4)

$α_i=0 ⇔ y_iE_i≥0\tag{4}$

0 < α i < C \Leftrightarrow y i E i = 0 (5)

$0<α_i<C ⇔ y_iE_i=0\tag{5}$

α i = C \Leftrightarrow y i E i \leq 0 (6)

$α_i=C⇔y_iE_i≤0\tag{6}$

E i = g (x ⃗ i) - y i

$E_i =g(\vec{x}_i)-y_i$

可以看出当 $\alpha_i \neq 0$ 的时候, $E_i$ 表示 $g(x)$ 对 $x_i$ 的预测值与真实值的误差.

现在进入算法, 可能有些简化

取初始值 $\vec{\alpha}=\vec{0}$ , 这里比较重要, 由KKT条件之互补松驰条件可知, $\alpha_i=0$ 所对应的样本点都是在界内的, 在边界上的支持向量只占了很少一部分, 对于分类问题这意味着绝大部分 $\alpha_i$ 是等于0的. 这样只需要找出少量的 $\alpha_i$ 进行调整即可.
在一定精度 $\varepsilon$ 内查找那些违反KKT条件的样本, 综合(4)~(5)就是

$α i < C but y i E i < 0 - ε$ $\alpha_i<C \quad \text{but}\quad y_iE_i<0-\varepsilon$
$α i > 0 but y i E i > 0 + ε$ $\alpha_i>0 \quad \text{but}\quad y_iE_i>0+\varepsilon$

其中优先选择 $0<\alpha_i<C$ 样本点, 如果这些样本点都满足KKT条件, 则遍历整个样本, 是不是通常第一步都是要遍历样本的.
假设找到了第一个乘子 $\alpha_1$ , 现在选择 $\alpha_2$ , 为了使得 $|E_1-E_2|$ 比较大, $E_1$ 为正, 就取最小的 $E_2$ 所对应的 $\alpha_2$ , 若 $E_1$ 为负, 就取最大的 $E_2$ 所对应的 $\alpha_2$ , 即 $\max{|E_1-E_2|}$ . 某些神奇的情况下??( $E_i$ 都不知道等于几或者全为0??), 那就先遍历 $0<\alpha_i<C$ 的样本点, 不行再遍历全部样本, 再不行重新选 $\alpha_i$ .

之后根据无约束求极值的方法可得(相关推导网上书上都有很多, 注意这里的 $\alpha_2^{old}$ 是凑出来的)

$α n e w, u n c l i p p e d 2 = α o l d 2 + y 2 ( E 1 - E 2 ) η$ $\alpha_2^{new, unclipped} = \alpha_2^{old}+\frac{y_2(E_1-E_2)}{\eta}$

$η = K 11 + K 22 - 2 K 12 s.t. η > 0$ $\eta=K_{11}+K_{22}-2K_{12}\quad \text{s.t.}\ \eta>0$

然后对 $\alpha_2$ 裁剪, 让其满足不等式约束. 先计算边界值:

$L = max (0, α o l d 2 - α o l d 1), H = min (C, C + α o l d 2 - α o l d 1) if y 1 \neq y 2$ $L=\max(0, \alpha_2^{old}-\alpha_1^{old}),\quad H=\min(C,C+\alpha_2^{old}-\alpha_1^{old}) \quad\text{if}\ \ y_1 \neq y_2$

$L = max (0, α o l d 2 + α o l d 1 - C), H = min (C, α o l d 2 + α o l d 1) if y 1 = y 2$ $L=\max(0, \alpha_2^{old}+\alpha_1^{old}-C),\quad H=\min(C,\alpha_2^{old}+\alpha_1^{old}) \quad\text{if}\ \ y_1 = y_2$

之后更新 $\alpha_2$ :

$α n e w 2 = ⎧ ⎩ ⎨ ⎪ ⎪ ⎪ ⎪ H α n e w, u n c l i p p e d 2 L α n e w, u n c l i p p e d 2 > H L \leq α n e w, u n c l i p p e d 2 \leq H α n e w, u n c l i p p e d 2 < L$ $\alpha_2^{new}=\begin{cases} H& \alpha_2^{new,unclipped} >H \\ \alpha_2^{new,unclipped}& L\leq \alpha_2^{new,unclipped} \leq H \\ L& \alpha_2^{new,unclipped} <L \end{cases}$
然后更新 $\alpha_1$ :
$α n e w 1 = α o l d 1 + y 1 y 2 (α o l d 2 - α n e w 2)$ $\alpha_1^{new} = \alpha_1^{old}+y_1y_2(\alpha_2^{old}-\alpha_2^{new})$
这里要注意一下 $\eta$ 恰好是目标函数 $\Psi(\alpha_2)$ 的二阶导数, $\eta>0$ 意味抛物线开口向上, 能取最小值, 这样就用上面的公式算, 如果 $\eta=0$ , 目标函数是条直线, $\eta<0$ 开口向下, 这两种情况最小值都是在边界上取到, 要算一下左边和右边的 $\Psi$ 值, 哪边的小就取哪边的 $\alpha_1,\ \alpha_2$ , 具体参见 Platt的论文.
用间隔边界上的样本更新阀值 $b$ :

$b n e w 1 = - E 1 - y 1 K 11 (α n e w 1 - α o l d 1) - y 2 K 21 (α n e w 2 - α 2 o l d) + b o l d$ $b_1^{new}=-E_1-y_1K_{11}(\alpha_1^{new}-\alpha_1^{old})-y_2K_{21}(\alpha_2^{new}-\alpha_{old}^2)+b^{old}$

$b n e w 2 = - E 2 - y 1 K 12 (α n e w 1 - α o l d 1) - y 2 K 22 (α n e w 2 - α 2 o l d) + b o l d$ $b_2^{new}=-E_2-y_1K_{12}(\alpha_1^{new}-\alpha_1^{old})-y_2K_{22}(\alpha_2^{new}-\alpha_{old}^2)+b^{old}$

如果 $\alpha_i(i=1,2)$ 有一个在界内 $(0<\alpha_i<C)$ , 则 $b^{new}=b^{new}_i$ , 否则取 $b^{new}=(b_1^{new}+b_2^{new})/2$ (实际上这里取 $b_1^{new}$ 和 $b_2^{new}$ 之间的数都行).
更新下 $E_i$ 值:

$E i = \sum S y i α i K (x ⃗ i, x ⃗ j) + b n e w - y i$ $E_i=\sum_S{y_i\alpha_iK(\vec{x}_i,\vec{x}_j)}+b^{new}-y_i$

$S$ 是支持向量的集合, 就是那些 $0<\alpha_i \leq C$ 所对应的样本点.
若所有样本满足KKT条件, 则停止迭代