浅谈SVM（六）

最新推荐文章于 2023-06-16 17:08:55 发布

zhangweiwei1516

最新推荐文章于 2023-06-16 17:08:55 发布

阅读量493

点赞数

分类专栏：机器学习文章标签： svm

本文链接：https://blog.csdn.net/u011479336/article/details/71107715

版权

机器学习专栏收录该内容

7 篇文章 0 订阅

订阅专栏

五、SMO 算法
1、简要介绍
$\quad$ 时序最小优化（SMO: Sequential Minimal Optimization）是一种可以快速解决 SVM 中二次规划（QP）问题的简单算法。它的好处有两点：一是不需要额外的矩阵存储，二是不需要对二次规划问题进行数值求解。
$\quad$ 与之前的一些算法不同，SMO 算法每一步都是解决一个最小规模的优化问题，对于标准的 SVM QP 问题，最小规模优化问题包含两个 $Lagrange$ 乘子（因为 $Lagrange$ 乘子需要遵循一个线性等式约束，所以至少为两个）。在算法的每一步，我们都选择两个 $Lagrange$ 乘子参与优化，在找到这些乘子的最优值后，用新的值更新 SVM 问题。并且 SMO 算法不需要额外的矩阵存储，所以大规模的 SVM 训练问题也可以在一台普通的计算机上进行处理。
$\quad$ 总的来说，SMO 由两部分构成：一是运用探索式方法去选择哪个乘子需要优先优化；二是运用解析的方法去解决两乘子（两个 $Lagrange$ 乘子，以下简称两乘子）优化问题。

2、两乘子优化问题
$\quad$ 首先来看看两乘子优化问题，由之前的讨论可知，需要解决的优化问题为：

⎧ ⎩ ⎨ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ m a x α \sum n i = 1 α i - 1 2 \sum n i, j = 1 α i α j y i y j x T i x j s . t . 0 \leq α i \leq C, i = 1, 2, . . ., n \sum n i = 1 α i y i = 0

$\begin{cases} max_{\alpha} \sum_{i=1}^n \alpha_i-\frac{1}{2} \sum_{i,j=1}^n \alpha_i\alpha_jy_iy_jx_i^Tx_j\\ s.t. \\ 0 \le \alpha_i \le C, \quad i=1,2,...,n \\ \sum_{i=1}^n \alpha_iy_i=0 \end{cases}$

$\quad$ 下面要解决的问题是：在

α=(α1,α2,...,αn) $\alpha=(\alpha_1, \alpha_2, ..., \alpha_n)$ 上求上述目标函数的最小值。为了求解这些乘子，不失一般性，每次从中任意抽取两个乘子

α1 $\alpha_1$ 和

α2 $\alpha_2$ ，然后固定

α1 $\alpha_1$ 和

α2 $\alpha_2$ 以外的其它乘子，使得目标函数只是关于

α1 $\alpha_1$ 和

α2 $\alpha_2$ 的函数。这样，不断地从一堆乘子中任意抽取两个求解，不断地迭代求解子问题，最终达到求解原问题的目的。

$\quad$ 现在对偶问题的子问题的目标函数可以表达为：

Ψ(α)=12K11α21+12K22α22+sK12α1α2+y1α1v1+y2α2v2−α1−α2−Ψconst $\Psi(\alpha)=\frac{1}{2}K_{11}\alpha_1^2+\frac{1}{2}K_{22}\alpha_2^2+sK_{12}\alpha_1\alpha_2+y_1\alpha_1v_1+y_2\alpha_2v_2-\alpha_1-\alpha_2-\Psi_{const}$

其中

⎧ ⎩ ⎨ ⎪ ⎪ K i j = K (x i, x j) v 1 = \sum n j = 3 y j α * j K 1 j = u * 1 + b * - y 1 α * 1 K 11 - y 2 α * 2 K 12 v 2 = \sum n j = 3 y j α * j K 2 j = u * 2 + b * - y 1 α * 1 K 12 - y 2 α * 2 K 22

$\begin{cases} K_{ij}=K(x_i,x_j)\\ v_1=\sum_{j=3}^ny_j\alpha_j^*K_{1j}=u_1^*+b^*-y_1\alpha_1^*K_{11}-y_2\alpha_2^*K_{12}\\ v_2=\sum_{j=3}^ny_j\alpha_j^*K_{2j}=u_2^*+b^*-y_1\alpha_1^*K_{12}-y_2\alpha_2^*K_{22} \end{cases}$
并且

s=y1y2 $s=y_1y_2$ 。

$\quad$ 在寻找最小值的过程中要满足线性等式约束，即

α1y1+α2y2=w0 $\alpha_1y_1+\alpha_2y_2=w_0$

其中

w0 $w_0$ 为常数。进而得出

α1+sα2=α∗1+sα∗2=w0 $\alpha_1+s\alpha_2=\alpha_1^*+s\alpha_2^*=w_0$

于是

α1=w0−sα2 $\alpha_1=w_0-s\alpha_2$ ，将此式带入

Ψ $\Psi$ 中并且关于

α2 $\alpha_2$ 求导，经整理后得到：

α2=α∗2+y2(E1−E2)η $\alpha_2=\alpha_2^*+\frac{y_2(E_1-E_2)}{\eta}$

其中

η=K11+K22−2K12 $\eta=K_{11}+K_{22}-2K_{12}$ ，

E1=u∗1−y1 $E_1=u_1^*-y_1$ ，

E2=u∗2−y2 $E_2=u_2^*-y_2$ 。
于是

α1=α∗1+s(α∗2−α2) $\alpha_1=\alpha_1^*+s(\alpha_2^*-\alpha_2)$

由于对于每个乘子都有

0<αi<C $0<\alpha_i<C$ 的限制，所以对结果还要加上一定的限制。

3、探索式方法寻找需要优先优化的乘子
$\quad$ 所谓的探索式选择方法主要思想是每次选择拉格朗日乘子的时候，优先选择样本前面系数满足 $0 \le \alpha_i \le C$ 的 $\alpha_i$ 作优化（称为无界样例），因为在界上（ $\alpha_i$ 为 $0$ 或 $C$ ）的样例对应的系数 $\alpha_i$ 一般不会更改。
$\quad$ 首先我们来看看加入松弛变量的原始问题的 $KKT$ 条件，根据附录1我们得出相应的 $KKT$ 条件为：