机器学习 06：SMO 算法

SP FA

已于 2022-05-27 14:26:13 修改

阅读量1.1k

点赞数 1

分类专栏：机器学习文章标签：机器学习算法支持向量机

于 2022-05-27 14:22:32 首次发布

本文链接：https://blog.csdn.net/SP_FA/article/details/125003150

版权

机器学习专栏收录该内容

19 篇文章 2 订阅

订阅专栏

文章目录

概述
选择变量的启发式方法
- 选择第一个变量
- 选择第二个变量
目标函数的优化
- 无约束求极值
- 加入约束
更新阈值 b

概述

$S M O$ 是由 $P l a t t$ 在 1998 年提出的、针对软间隔最大化 $S V M$ 对偶问题求解的一个算法，其基本思想很简单：如果所有变量的解都满足此优化问题的 KKT 条件，则这个优化问题的解就得到了；否则在每一步优化中，挑选出诸多参数 $\alpha_k\ (k=1,2,\cdots,n)$ 中的两个参数 $\alpha_i,\alpha_j$ 作为变量，其余参数都视为常数，问题就变成了类似于二次方程求最大值的问题，从而我们就能求出解析解，这两个变量中，一个是违反 KKT 条件最严重的那一个，另一个由约束条件自动确定一个。

选择变量的启发式方法

先来回顾一下 $S V M$ 中的优化目标函数：

$\min\limits_{\alpha_i\ge0}\left(\frac{1}{2}\sum\limits_{i=1}^N\sum\limits_{j=1}^N\alpha_i\alpha_jy_iy_jK(\vec x_i,\vec x_j)-\sum\limits_{i=1}^N\alpha_i\right)\\s.t. \sum\limits_{i=1}^N\alpha_iy_i=0,\ \ 0\le\alpha_i\le C$

由于要满足约束 $\sum\limits_{i=1}^N\alpha_iy_i=0$ ，所以每次需要选取两个 $\alpha_i$ 做为变量，这一点与坐标上升法不同。

要使优化目标函数有解，我们需要使其满足 $K K T$ 条件中的互补松弛：

$\alpha_i(y_i(\vec w\cdot\phi(\vec x_i)+b)-1+\xi_i)=0$

根据上面的条件我们可以得出：

$\begin{cases}y_i(\vec w\cdot\phi(\vec x_i)+b)\ge1&\alpha_i=0\\y_i(\vec w\cdot\phi(\vec x_i)+b)=1&0\le\alpha_i\le C\\y_i(\vec w\cdot\phi(\vec x_i)+b)\le1&\alpha_i=C\end{cases}$

由于 $\vec w=\sum\limits^N_{j=1}\alpha_jy_j\phi(\vec x_j)$ ，我们令

$g(\vec x_i)=\vec w\cdot\phi(\vec x_i)+b=\sum\limits^N_{j=1}\alpha_jy_jK(\vec x_i,\vec x_j)+b$

则可以推出以下三个条件：

$\begin{cases}y_ig(\vec x_i)\ge1&\alpha_i=0\\y_ig(\vec x_i)=1&0\le\alpha_i\le C\\y_ig(\vec x_i)\le1&\alpha_i=C\end{cases}$

选择第一个变量

在 $S M O$ 中，我们称第一个变量为外循环。外循环取的是样本中违反 $K K T$ 条件最严重的点。

我们可以借助上面推出的条件来度量一个点违反 $K K T$ 条件的程度，具体来说，我们定义三份“差异向量”

$\vec c^{(k)}=(c_1^{(k)},c_2^{(k)},\cdots,c_N^{(k)}),\ k=1,2,3\\c_i^{(k)}=y_ig(\vec x_i)-1$

其中第 $k$ 个向量对应着第 $k$ 个条件。对于不同的条件，我们按不同方式将对应向量的某些位置置为 0。

第一个条件： $\alpha_i=0\Rightarrow c_i^{(1)}\ge0$ 若满足：
- $\alpha_i>0$ 且 $c_i^{(1)}\le0$
- $\alpha_i=0$ 且 $c_i^{(1)}\ge0$
第二个条件： $0\le\alpha_i\le C\Rightarrow c_i^{(2)}=0$ 若满足：
- $\alpha_i=0$ 或 $\alpha_i=C$ 且 $c_i^{(2)}\ne0$
- $0\le\alpha_i\le C$ 且 $c_i^{(2)}=0$
第三个条件： $\alpha_i=C\Rightarrow c_i^{(3)}\le0$
- $\alpha_i< C$ 且 $c_i^{(3)}\ge0$
- $\alpha_i=C$ 且 $c_i^{(3)}\le0$

最后只需要将这三个差异向量的平方相加作为“损失”，从而直接选出损失最大的 $\alpha_i$ 作为外循环即可。

选择第二个变量

第二个变量成为内循环，只需要简单的随机选取一个即可。

取出这两个变量之后，把其它变量看做常数，这样优化目标函数就变成了带约束的二次规划问题。

目标函数的优化

假设选择的两个变量是 $\alpha_1,\alpha_2$ ，把其它的 $\alpha_i$ 都看作常数。定义 $K_{ij}=K(\vec x_i,\vec x_j)$ 那么原先的优化目标函数就成了：
$\min\limits_{\alpha_1,\alpha_2}\frac{1}{2}K_{11}\alpha_1^2+\frac{1}{2}K_{2,2}\alpha_2^2+y_1y_2K_{1,2}\alpha_1\alpha_2-(\alpha_1+\alpha_2)+y_1\alpha_1\sum\limits^N_{i=3}y_i\alpha_iK_{i,1}+y_2\alpha_2\sum\limits^N_{i=3}y_i\alpha_iK_{i,2}+c\\s.t.\ \ \alpha_1y_1+\alpha_2y_2=C\\0\le\alpha_i\le C,\ i=1,2$

无约束求极值

我们先暂时不管约束条件 $0\le\alpha_i\le C,i=1,2$ ，通过 $\alpha_1=(C-\alpha_2y_2)y_1$ 可以将目标函数替换成单变量形式：
$\min \phi(\alpha_2)=\frac12K_{1,1}(C-\alpha_2y_2)^2+\frac12K_{2,2}\alpha^2_2+y_2K_{12}\alpha_2(C-\alpha_2y_2)-y_1(C-\alpha_2y_2)-\alpha_2+(C-\alpha_2y_2)\sum\limits^N_{i=3}\alpha_iy_iK_{1,i}+y_2\alpha_2\sum\limits^N_{j=3}\alpha_jy_jK_{2,j}+c$

我们设更新前的值为 $\alpha_i^{old}$ , 更新后的值为 $\alpha_i^{new}$ ，对目标函数进行一个偏导的求：
$\frac{\partial\phi(\alpha_2^{new})}{\partial\alpha_2^{new}}=(K_{1,1}+K_{2,2}-2K_{1,2})\alpha_2^{new}-K_{1,1}Cy_2+K_{1,2}Cy_2+y_1y_2-1-y_2\sum\limits^N_{i=3}\alpha_iy_iK_{1,i}+y_2\sum\limits^N_{j=3}\alpha_jy_jK_{2,j}=0$

因为 SVM 中数据点的预测值为： $f(\vec x_j)=\sum\limits^N_{i=1}\alpha_iy_iK(\vec x_i,\vec x_j)+b$ 因此有：

$\sum\limits^N_{i=3}\alpha_iy_iK_{1,i}=f(\vec x_1)-\alpha_1^{new}y_1K_{1,1}-\alpha_2^{new}y_2K_{1,2}-b$
$\sum\limits^N_{i=3}\alpha_iy_iK_{2,i}=f(\vec x_2)-\alpha_1^{new}y_1K_{1,2}-\alpha_2^{new}y_2K_{2,2}-b$

另有： $C=\alpha_1^{old}y_1+\alpha_2^{old}y_2$

将上面三个式子带入偏导中并化简得：
$(K_{1,1}+K_{2,2}-2K_{1,2})\alpha_2^new=(K_{1,1}+K_{2,2}-2K_{1,2})\alpha_2^{old}+y_2[(f(\vec x_1)-y_1)-(f(\vec x_2)-y_2)]$

设 $\eta=K_{1,1}+K_{2,2}-2K_{1,2}$ ，则有：
$\begin{cases}\alpha_2^{new}=\alpha_2^{old}+\frac{y_2[(f(\vec x_1)-y_1)-(f(\vec x_2)-y_2)]}{\eta}\\\alpha_1^{old}y_1+\alpha_2^{old}y_2=\alpha_1^{new}y_1+\alpha_2^{new}y_2\end{cases}$

这样我们就求出了这两个变量在无约束情况下的解析解。

加入约束

当 $y_1\ne y_2$ 时，线性限制条件可以写成： $\alpha_1-\alpha_2=k$ ，根据 $k$ 的正负可以得到不同的上下界，可以统一表示为：

下界： $L=\max(0,\alpha_2-\alpha_1)$
上界： $H=\min(C,C+\alpha_2-\alpha_1)$

当 $y_1=y_2$ 时，限制条件可以写成： $\alpha_1+\alpha_2=k$ ，此时上下界可以统一为：

下界： $L=max(0,\alpha_1+\alpha_2-C)$
上界： $H=min(C,\alpha_1+\alpha_2)$

由此可知，此约束为方形约束，下图为它的限制区域。
在这里插入图片描述

根据得到的上下界，我们可知加入约束后的 $\alpha_2^{new}$ 为：
$\alpha_2^{new}=\begin{cases}H&\alpha_2^{new}>H\\a_2^{new}&L\le\alpha_2^{new}\le H\\L&\alpha_2^{new}<L\end{cases}$

这样就实现了对 $\alpha_i,\alpha_j$ 的更新。

更新阈值 b

每次更新完一对 $\alpha_i,\alpha_j$ 之后都需要重新计算阈值 $b$ ，因为它关系到 $f(\vec x)$ 的计算和优化时误差 $E_i$ 的计算。

当 $0<alpha_1^{new}<C$ ，根据 $K K T$ 条件可知相应的数据点为支持向量，满足 $y_1(w^T+b)=1$ ，两边同时乘 $y_1$ 得： $\sum\limits^N_{i=1}\alpha_iy_iK_{i,1}+b=y_1$ ，因此 $b_1^{new}$ 的值为：
$b_1^{new}=y1-\sum\limits^N_{i=3}\alpha_iy_iK_{i,1}-\alpha_1^{new}y_1K_{1,1}-\alpha_2^{new}y_2K_{2,1}$

其中， $y1-\sum\limits^N_{i=3}\alpha_iy_iK_{i,1}=-E_1+\alpha_1^{old}y_1K_{1,1}+\alpha_2^{old}y_2K_{2,1}+b^{old}$

当 $0<\alpha_2^{new}<C$ 时：
$b_2^{new}=-E_2-y_1K_{1,2}(\alpha_1^{new}-\alpha_1^{old})-y_2K_{2,2}(\alpha_2^{new}-\alpha_2^{old})+b^{old}$

当 $b_1,b_2$ 都有效时他们是相等的，即 $b^{new}=b_1^{new}=b_2^{new}$
当 $\alpha_1,\alpha_2$ 都在边界上，且 $L\ne H$ 时，选择它们的中点作为新的阈值： $b^{new}=\frac{b_1^{new}+b_2^{new}}2$

同步更新于：SP-FA 的博客

SP FA

关注

1
点赞
踩
15

收藏

觉得还不错? 一键收藏
打赏
2
评论
机器学习 06：SMO 算法

文章目录概述选择变量的启发式方法选择第一个变量选择第二个变量目标函数的优化无约束求极值加入约束更新阈值 b概述SMOSMOSMO 是由 PlattPlattPlatt 在 1998 年提出的、针对软间隔最大化 SVMSVMSVM 对偶问题求解的一个算法，其基本思想很简单：如果所有变量的解都满足此优化问题的 KKT 条件，则这个优化问题的解就得到了；否则在每一步优化中，挑选出诸多参数 αk (k=1,2,⋯ ,n)\alpha_k\ (k=1,2,\cdots,n)αk (k=1,
复制链接

扫一扫