支持向量机SVM之-SMO算法

最新推荐文章于 2021-06-04 11:18:22 发布

code__online

最新推荐文章于 2021-06-04 11:18:22 发布

阅读量3.4k

点赞数 4

分类专栏：机器学习文章标签：序列最小最优化算法 SMO SVM

本文链接：https://blog.csdn.net/code__online/article/details/90518735

版权

机器学习专栏收录该内容

20 篇文章 2 订阅

订阅专栏

序列最小最优化算法

序列最小最优化算法（sequential minimal optimization，简称SMO）是由Platt在1998年提出，用于解决多变量的凸优化问题。当变量个数很多的时候，一般的最优化算法通常无法有效求解最优解。此时，SMO算法的作用就会体现的淋漓尽致。针对多变量的最优解问题，SMO算法通过从变量集中选取两个变量，剩余的变量视为常量来计算局部最优解，然后再以递进的方式求出全局最优解。

SMO算法需要解决的最优化问题： $\min_{\alpha} \quad \frac{1}{2}\sum_{i=1}^N\sum_{j=1}^N\alpha_i\alpha_jy_iy_jK(x_i,x_j)-\sum_{i=1}^N\alpha_i$ $\qquad \sum_{i=1}^N\alpha_iy_i=0$ $\leq \alpha_i \leq C,i=1,2,...,N$ 其中，目标函数的变量为 $(\alpha_1,\alpha_2,...,\alpha_N)$ ，每一个实例 $x_i,y_i)$ 对应一个 $\alpha_i$ 。

SMO算法是一种启发式算法，其基本思路是：如果所有变量的解都满足此最优化问题的KKT条件，那么这个最优化问题的解就得到了。因此KKT条件是该最优化问题的充分必要条件。SMO算法的目标是求解满足KKT条件的 $(\alpha_1,\alpha_2,...,\alpha_N)$ 。方法是选择两个变量，固定其他变量，针对这两个变量构建一个二次规划的子问题。这个二次规划子问题关于这两个变量的解更接近原始二次规划问题的解，因为这会使得原始二次规划问题的目标函数值变得更小。二次规划子问题有两个变量，一个是主动变量，其为违反KKT条件最严重的那一个，另一个被动变量，由主动变量依据约束条件自动确定。如此，SMO算法将原问题不断分解为子问题并对子问题求解，进而达到求解原问题的目的。

对子问题进行求最优解时，假设 $\alpha_1,\alpha_2$ 为两个变量，固定 $\alpha_3,\alpha_4,...,\alpha_N$ ，其满足的约束条件为： $\alpha_1y_1+\alpha_2y_2=-\sum_{i=3}^N\alpha_iy_i=\zeta$ 当更新其中一个变量 $\alpha_2$ 时，相应的 $\alpha_1$ 也会自动更新，进而求出子问题的最优解。

两个变量二次规划

假设 $\alpha_1,\alpha_2$ 为两个变量，固定 $\alpha_3,\alpha_4,...,\alpha_N$ ，那么SMO的最优化问题的子问题表达为： $\min_{\alpha_1,\alpha_2} \quad W(\alpha_1,\alpha_2)=\frac{1}{2}K_{11}\alpha_1^2+\frac{1}{2}K_{22}\alpha_2^2+y_1y_2K_{12}\alpha_1\alpha_2-(\alpha_1+\alpha_2)+y_1\alpha_1\sum_{i=3}^Ny_i\alpha_iK_{i1}+y_2\alpha_2\sum_{i=3}^Ny_i\alpha_iK_{i2}$ $\quad \alpha_1y_1+\alpha_2y_2=-\sum_{i=3}^N\alpha_iy_i=\zeta$ $\leq \alpha_i\leq C,i=1,2$ 其中， $K_{ij}=K(x_i,x_j),i,j=1,2,...,N$ ， $\zeta$ 为常数。

为了解决两个变量的最优化问题，首先分析约束条件，找出变量满足的取值范围，并在此范围内求解最优解。

依据变量的上述等式约束和不等式约束， $\alpha_1,\alpha_2$ 都在 $[0, C]$ 范围内，并且 $\alpha_1,\alpha_2$ 满足的直线平行于盒子范围的对角线。如果 $y_1=\not y_2$ 时，则 $L=max(0,\alpha_2^{old}-\alpha_1^{old}),H=min(C,C+\alpha_2^{old}-\alpha_1^{old})$ ；如果 $y_1= y_2$ 时，则 $L=max(0,\alpha_2^{old}+\alpha_1^{old}-C),H=min(C,\alpha_2^{old}+\alpha_1^{old})$ 。计算的新解 $\alpha_1^{new},\alpha_2^{new}$ 必须满足 $[L, H]$ 这一范围，即 $L\leq \alpha_2^{new}\leq H$ ，接下来两个变量的最优化问题实质上是单变量的最优化问题，因为上述的等式约束，不妨考虑为变量 $\alpha_2$ 的最优化问题。

首先求沿着约束方向不考虑取值范围时的 $\alpha_2$ 的最优解 $\alpha_2^{new,unc}$ ；然后再求剪辑后 $\alpha_2$ 的解 $\alpha_2^{new}$ 。在此之前，先计算每个实例 $x_i$ 的误差 $g(x)=\sum_{i=1}^N\alpha_iy_iK(x_i,x)+b$ $E_i=g(x_i)-y_i=(\sum_{i=1}^N\alpha_iy_iK(x_i,x)+b)-y_i,i=1,2$ 上式中， $g(x_i)$ 为实例 $x_i$ 的预测值， $E_i$ 为实例 $x_i$ 的误差。

最优化问题沿着约束方向不考虑取值范围的解为： $\alpha_2^{new,unc}=\alpha_2^{old}+\frac{y_2(E_1-E_2)}{\eta}$ 那么，这个公式是怎么推导出来的呢？接下来就是推导公式的详细步骤： $v_i=\sum_{j=3}^N\alpha_jy_jK(x_i,x_j)=g(x_i)-\sum_{j=1}^2\alpha_jy_jK(x_i,x_j)-b,i=1,2$ 目标函数可写成 $W(\alpha_1,\alpha_2)=\frac{1}{2}K_{11}\alpha_1^2+\frac{1}{2}K_{22}\alpha_2^2+y_1y_2K_{12}\alpha_1\alpha_2-(\alpha_1+\alpha_2)+y_1\alpha_1v_1+y_2\alpha_2v_2$ 由 $\alpha_1y_1=\zeta-\alpha_2y_2$ 及 $y_i^2=1$ ，可将 $\alpha_1$ 表示为 $\alpha_1=(\zeta-\alpha_2y_2)y_1$ 代入到上式中，得到只要一个变量 $\alpha_2$ 的目标函数 $W(\alpha_2)=\frac{1}{2}K_{11}(\zeta-\alpha_2y_2)^2+\frac{1}{2}K_{22}\alpha_2^2+y_2K_{12}(\zeta-\alpha_2y_2)\alpha_2-(\zeta-\alpha_2y_2)y_1-\alpha_2+v_1(\zeta-\alpha_2y_2)+y_2v_2\alpha_2$ 对 $\alpha_2$ 求导数 $\frac{\partial W}{\partial \alpha_2}=K_{11}\alpha_2+K_{22}\alpha_2-2K_{12}\alpha_2-K_{11}\zeta y_2+K_{12}\zeta y_2+y_1y_2-1-v_1y_2+y_2v_2$ 令其为0，即 $(K_{11}+K_{22}-2K_{12})\alpha_2=y_2(y_2-y_1+\zeta K_{11}-\zeta K_{12}+v_1-v_2)\\ =y_2\left[y_2-y_1+\zeta K_{11} - \zeta K_{12} +(g(x_i)-\sum_{j=1}^2y_j\alpha_jK_{1j}-b)-(g(x_2-\sum_{j=1}^2y_j\alpha_jK_{2j}-b)\right]$ 将 $\zeta=\alpha_1^{old}y_1+\alpha_2^{old}y_2$ 代入，得到 $\begin{aligned}(K_{11}+K_{22}-2K_{12})\alpha_2^{new,unc} &= y_2((K_{11}+K_{22}-2K_{12})\alpha_2^{old}y_2+y_2-y_1+g(x_1)-g(x_2)) \\ &=(K_{11}+K_{22}-2K_{12})\alpha_2^{old}+y_2(E_1-E_2)\end{aligned}$ 令 $\eta=K_{11}+K_{22}-2K_{12}$ 代入，得到 $\alpha_2^{new,unc}=\alpha_2^{old}+\frac{y_2(E_1-E_2)}{\eta}$

然后，经过范围的约束得到的新解为
$\alpha_2^{new} = \begin{cases} H \qquad, \alpha_2^{new,unc}>H \\ \alpha_2^{new,unc}, L \leq \alpha_2^{new,unc} \leq H \\ L \qquad, \alpha_2^{new,unc} < L \end{cases}$
由 $\alpha_2^{new}$ 计算得到 $\alpha_1^{new}=\alpha_1^{old}+y_1y_2(\alpha_2^{old}-\alpha_2^{new})$

计算截距b和误差 $E_i$

每次完成两个变量的更新优化后，都要重新计算截距b。当 $0<\alpha_1^{new}<C$ 时，由KKT条件可知： $\sum_{i=1}^N\alpha_iy_iK_{i1}+b=y_1$ 于是得到： $b_1^{new}=y_1-\sum_{i=3}^N\alpha_iy_iK_{i1}-\alpha_1^{new}y_1K_{11}-\alpha_2^{new}y_2K_{21}$ 由 $E_1$ 的定义： $E1=\sum_{i=3}^N\alpha_iy_iK_{i1}-\alpha_1^{old}y_1K_{11}-\alpha_2^{old}y_2K_{21}+b^{old}-y_1$ 将上式代入到 $E_1$ 中得到： $b_1^{new}=-E_1-y_1K_{11}(\alpha_1^{new}-\alpha_1^{old})-y_2K_{21}(\alpha_2^{new}-\alpha_2^{old})+b^{old}$ 同理，如果 $0<\alpha_2^{new}<C$ ，那么 $b_2^{new}=-E_2-y_1K_{12}(\alpha_1^{new}-\alpha_1^{old})-y_2K_{22}(\alpha_2^{new}-\alpha_2^{old})+b^{old}$ 如果 $\alpha_1^{new},\alpha_2^{new}$ 是0或者C，那么 $b^{new}=\frac{b_1^{new}+b_2^{new}}{2}$ 。

更新 $b^{new}$ 之后，还要更新对应的 $E_i$ ： $E_i^{new}=\sum_{j=1}^Ny_j\alpha_jK(x_i,x_j)+b^{new}-y_i$

SMO算法

输入：线性可分训练集 $T=\left\{(x_1,y_1),(x_2,y_2),...,(x_N,y_N)\right\}$ ，其中， $x_i\in \mathcal {X}=R^n,y_i \in \mathcal {Y}=\left\{+1，-1\right\},i=1,2,...,N$ ，精度 $\varepsilon$
输出：近似解 $\alpha$

取初值 $\alpha^{(0)}=0$ ，令k=0
选取优化变量 $\alpha_1^{(k)},\alpha_2^{(k)}$ ，解析求解两个变量的最优化问题，求得最优解 $\alpha_1^{(k+1)},\alpha_2^{(k+1)}$ ，更新 $\alpha$ 为 $\alpha^{(k+1)}$
若在精度 $\varepsilon$ 范围内满足停止条件 $\sum_{i=1}^N\alpha_iy_i=0$ $0\leq \alpha_i \leq C,i=1,2,...,N$ $y.g(x_i)=\begin{cases} \ge 1, \left\{x_i|\alpha_i=0\right\} \\ =1, \left\{x_i|0 < \alpha_i < C\right\} \\ \leq 1, \left\{x_i|\alpha_i=C\right\} \end{cases}$ 其中 $g(x_i)=\sum_{j=1}^N\alpha_jy_jK(x_i,x_j)+b$ 则转到下一步，否则令k=k+1，转到第2步；
取 $\alpha=\alpha^{(k+1)}$

变量的选择

第一个变量的选择
KKT条件： $\alpha_i=0\Leftrightarrow y_ig(x_i)\ge 1$ $0<\alpha_i<C\Leftrightarrow y_ig(x_i)= 1$ $\alpha_i=C\Leftrightarrow y_ig(x_i)\leq 1$ SMO选择第1个变量的过程称为外层循环。外层循环在训练样本中选取违反KKT条件最严重的样本点，并将其对应的变量作为第1个变量。该检验是在 $\varepsilon$ 范围内进行的。检验过程中，外层循环首先遍历所有满足条件的 $\alpha_i < C$ 的样本点，检验它们是否满足KKT条件。如果这些样本点都不满足KKT条件，那么遍历整个训练集，检验它们是否满足KKT条件。
第2个变量的选择
SMO选择第2个变量的过程称为内层循环。假设外层循环找到第1个变量 $\alpha_1$ ，现在在内层循环中找到第2个变量 $\alpha_2$ 。第2个变量的选择标准是使 $|\alpha_1-\alpha_2|$ 有足够大的变化。因为 $\alpha_2^{new}$ 是依赖于 $|\alpha_1-\alpha_2|$ ，选择一个 $\alpha_2$ ，使得 $|\alpha_1-\alpha_2|$ 尽可能的大，从而加快计算速度。如果 $E_1$ 是正的，那么选择最小的 $E_i$ 作为 $E_2$ ；如果 $E_1$ 是负的，那么选择最大的 $E_i$ 作为 $E_2$ 。