支持向量机SVM(5)——SMO算法

最新推荐文章于 2022-01-08 17:59:25 发布

Donreen

最新推荐文章于 2022-01-08 17:59:25 发布

阅读量410

点赞数

分类专栏：机器学习入门文章标签：支持向量机 SVM SMO 机器学习

本文链接：https://blog.csdn.net/CarryLvan/article/details/102851623

版权

机器学习入门专栏收录该内容

19 篇文章 5 订阅

订阅专栏

支持向量机SVM——SMO算法

0.回顾

接上一篇博客支持向量机SVM(4)——核函数
回顾前面所讲的，我们现在的优化问题变成了：
$\begin{cases}min_{\lambda}\;\frac{1}{2}\sum_{i=1}^N\sum_{j=1}^N\lambda_i\lambda_jy_iy_jK(x_i,x_j)-\sum_{i=1}^N\lambda_i\\ s.t. \quad 0\leq\lambda_i\leq C\\\qquad\sum_{i=1}^N\lambda_iy_i=0，i=1,2,...,N\end{cases}$
同时满足KKT条件：

$\begin{cases}\lambda_i(1- y_i(w^Tx_i+b)-\xi_i)=0\\ \lambda_i\geq0，u_i\geq0\\y_i(w^Tx_i+b)\geq1-\xi_i\\\xi_i\geq0\\u_i\xi_i=0，i=1,2,...,N\end{cases}$
最优解的形式：
$\begin{cases}b={y_j}-\sum_{i=1}^N\lambda_iy_iK(x_i,x_j)\\ w=\sum_{i=1}^N\lambda_iy_ix_i\end{cases}$
现在只要求得 $\lambda_i(i=1,2,...,N)$ 就可以得到最终的超平面方程（因为求b需要带入支持向量，所以暂时不带入b的最优解表达式）：
$f(x)=\sum_{i=1}^N\lambda_iy_iK(x,x_i)+b$

上面优化问题的最优解 $\lambda_i$ 可以通过SMO（Sequential minimal optimization，序列最小化）算法求解，其基本思路是：如果所有变量的解都满足上面优化问题的KKT条件，那么这个问题的解就得到了，因为满足KKT条件是最优化问题的充分必要条件。
整个SMO算法分为两步：（1）求解两个变量二次规划的解析方法；（2）选择变量的启发式方法。

1.求解两个变量二次规划的解析方法

首先选择两个变量 $\lambda_1和\lambda_2$ ，并固定其他变量 $\lambda_i$ 不变，即当作常数处理，至于怎么选择 $\lambda_1和\lambda_2$ 在下一部分讲解。现在为了简化最优化问题的表达式，我们将包含变量 $\lambda_1和\lambda_2$ 的部分单独提出来：
$\begin{cases}min_{\lambda_1,\lambda_2}\quad\frac{1}{2}\lambda^2_1K_{11}+\frac{1}{2}\lambda^2_2K_{22}+y_1y_2\lambda_1\lambda_2K_{12}+y_1\lambda_1\sum_{i=3}^N\lambda_iy_iK_{i1}+y_2\lambda_2\sum_{i=3}^N\lambda_iy_iK_{i2}-\lambda_1-\lambda_2\\ s.t. \quad\lambda_1y_1+\lambda_2y_2=-\sum_{i=3}^N\lambda_iy_i=c\\ \quad\quad 0\leq\lambda_i\leq C， i=1,2\end{cases}$
其中， $K_{ij}=K(x_i, x_j),i=1,2,...,N$ ，c是常数，并吧目标优化函数中包含了固定不变的 $\lambda$ 常数部分省略掉。

令 $v_j=\sum_{i=3}^N\lambda_iy_iK_{ij}=f(x_j)-\sum_{i=1}^2\lambda_iy_iK_{ij}-b,(j=1,2)$ ，然后根据上面的第一个约束条件可得：
$\lambda_1=(c-\lambda_2y_2)y_1$
将上式代入优化问题中，得：
$W(\lambda_2)=\frac{1}{2}(c-\lambda_2y_2)^2K_{11}+\frac{1}{2}\lambda^2_2K_{22}+y_2(c-\lambda_2y_2)\lambda_2K_{12}+(c-\lambda_2y_2)v_1+y_2\lambda_2v_2-(c-\lambda_2y_2)y_1-\lambda_2$
然后现在求解上面这个最优化问题我们直接对 $\lambda_2$ 求导并令其为0：
$\frac{\partial W}{\partial \lambda_2}=(\lambda_2-cy_2)K_{11}+\lambda_2K_{22}+(y_2c-2\lambda_2)K_{12}-y_2v_1+y_2v_2+y_1y_2-1=0\\\Rightarrow\lambda_2(K_{11}+K_{22}-2K_{12})=y_2(cK_{11}-cK_{12}+v_1-v_2+y_2-y_1)\\\Rightarrow\lambda_2(K_{11}+K_{22}-2K_{12})=y_2(cK_{11}-cK_{12}+(f(x_1)-\sum_{i=1}^2\lambda_iy_iK_{i1}-b)-(f(x_2)-\sum_{i=1}^2\lambda_iy_iK_{i2}-b)+y_2-y_1)$

现在假设优化问题的初始解为 $\lambda_1^{old}，\lambda_2^{old}$ ，最优解为 $\lambda_1^{new}，\lambda_2^{new}$ ，然后将 $c=\lambda_1^{old}y_1+\lambda_2^{old}y_2$ 带入上式中，并令 $E_i=f(x_i)-y_i$ （表示预测值和真实值之间的误差）以及令 $\eta=X_{11}+X_{22}-2X_{12}$ ，化简求解得到：
$\lambda^{new}_2=\lambda^{old}_2+\frac{y_2(E_1-E_2)}{\eta}$

因为优化问题对于 $\lambda_2$ 是有约束的，所以我们假设 $L\leq\lambda^{new}_2\leq H$ ，然后根据 $\lambda^{old}_1y_1+\lambda^{old}_2y_2=\lambda^{new}_1y_1+\lambda^{new}_2y_2=c$ 和 $0\leq\lambda_i\leq C$ 这两个条件来求 $\lambda^{new}_2$ 的取值范围：
（1）当 $y_1\neq y_2$ 时，因为y的取值是1或-1，所以我们可得：
$\lambda^{old}_1-\lambda^{old}_2=c，\lambda^{new}_1-\lambda^{new}_2=c\iff \lambda^{new}_2=\lambda^{new}_1-c$
当 $\lambda^{new}_1$ 取得最大值C时，同样 $\lambda^{new}_2$ 也取得最大值C-c；当 $\lambda^{new}_1$ 取得最小值0时，同样 $\lambda^{new}_2$ 也取得最小值-c，所以 $-c\leq\lambda^{new}_2\leq C-c$ ，同时结合 $0\leq\lambda^{new}_2\leq C$ (取交集)：
$L=max(0,\lambda^{old}_2-\lambda^{old}_1)，H=min(C,C+\lambda^{old}_2-\lambda^{old}_1)$
（2）当 $y_1= y_2$ 时，同理可得：
$L=max(0,\lambda^{old}_1+\lambda^{old}_2-C)，H=min(C,\lambda^{old}_1+\lambda^{old}_2)$
所以当求得 $\lambda_2$ 后需要结合 $L, H$ 进行相应的处理。

现在我们求出 $\lambda^{new}_2$ 之后，根据 $\lambda^{old}_1y_1+\lambda^{old}_2y_2=\lambda^{new}_1y_1+\lambda^{new}_2y_2$ ，求出 $\lambda^{new}_1$ ：
$\lambda^{new}_1=\lambda^{old}_1+(\lambda^{old}_2-\lambda^{new}_2)y_1y_2$

2.选择变量的启发式方法

SMO算法在每个子问题中选择两个变量优化，其中至少一个变量是违反KKT条件得。

2.1第一个变量 $\lambda_1$ 的选择

SMO算法选择第一个变量的过程称为外层循环。基本思想是在训练样本中选取违反KKT条件最严重的样本点，并将其对应的变量作为第1个变量。违反KKT条件即是否满足KKT条件：
$\begin{cases}\lambda_i=0 \Leftrightarrow y_if(x_i)\geq1\\0<\lambda_i<C \Leftrightarrow y_if(x_i)=1\\\lambda_i=C \Leftrightarrow y_if(x_i)\leq1\end{cases}$
其中 $f (x)$ 是超平面方程。

整体流程：外层循环首先遍历所有满足条件 $0<\lambda_i<C$ 的样本点，即在间隔边界上的支持向量点，检验他们是否满足KKT条件；如果这些样本点都满足KKT条件，那么遍历整个训练集，检验他们是否满足KKT条件。

2.2第二个变量 $\lambda_2$ 的选择

选择第2个变量的标准是希望能使 $\lambda_2$ 有足够大的变化，因为 $\lambda^{new}_2=\lambda^{old}_2+\frac{y_2(E_1-E_2)}{\eta}$ ，所以我们会选择 $E_1-E_2|$ 最大的 $\lambda_2$ ，即保证每次优化中采取最大步长。

在特殊情况下，如果内层循环通过上面方法找到的 $\lambda_2$ 不能使得目标函数有足够的下降，那么继续选择 $\lambda_2$ ，遍历在间隔边界上的支持向量点，一次将其作为 $\lambda_2$ 试用，只有目标函数有足够的下降。若找不到合适的 $\lambda_2$ ，那么遍历整个训练集；若仍然找不到则放弃第一个选择的 $\lambda_1$ ，重新通过外层循环选择另外的 $\lambda_1$ 。

需要注意的是：每次在计算完两个 $\lambda$ 后都要更新超平面方程中的b：
当 $0<\lambda_1^{new}<C$ 时由KKT条件可得 $\sum_{i=1}^N\lambda_iy_iK_{i1}+b=y_1\\\Rightarrow b^{new}_1=y_1-\sum_{i=3}^N\lambda_iy_iK_{i1}-\lambda_1^{new}y_1K_{11}-\lambda_2^{new}y_2K_{21}$
又因为由 $E_1=f(x_1)-y_1=\sum_{i=3}^N\lambda_iy_iK_{i1}+\lambda_1^{old}y_1K_{11}+\lambda_2^{old}y_2K_{21}+b^{old}-y_1$ 可得：
$y_1-\sum_{i=3}^N\lambda_iy_iK_{i1}=-E_1+\lambda_1^{old}y_1K_{11}+\lambda_2^{old}y_2K_{21}+b^{old}$
将上式代入b中可得：
$b^{new}_1=b^{old}-E_1-y_1(\lambda^{new}_1-\lambda^{old}_1)K_{11}-y_2(\lambda^{new}_2-\lambda^{old}_2)K_{12}$
同理可得，当 $0<\lambda_2^{new}<C$ 时：
$b^{new}_2=b^{old}-E_2-y_1(\lambda^{new}_1-\lambda^{old}_1)K_{12}-y_2(\lambda^{new}_2-\lambda^{old}_2)K_{22}$

如果 $\lambda_1^{new},\lambda_2^{new}$ 同时满足 $0<\lambda_i^{new}<C$ ，那么 $b_1^{new}=b_2^{new}$ ；如果 $\lambda_1^{new},\lambda_2^{new}$ 为0或C，那么取 $b_1^{new}，b_2^{new}$ 的中点作为更新的b。

Donreen

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
支持向量机SVM(5)——SMO算法

支持向量机SVM——SMO算法接上一篇博客支持向量机SVM(2)——拉格朗日乘数法回顾前面所讲的，我们现在的问题变成了：{maxλ (−12∑i=1N∑j=1NλiλjyiyjxiTxj+∑i=1Nλi)s.t.0≤λi≤C∑i=1Nλiyi=0 \begin{cases}max_{\lambda}\;(-\frac{1}{2}\sum_{i=1}^N\sum_{j=1}^N\lambda...
复制链接

扫一扫