[机器学习]SVM的推导(2)

最新推荐文章于 2020-05-05 20:16:15 发布

Frankkk_

最新推荐文章于 2020-05-05 20:16:15 发布

阅读量342

点赞数

分类专栏： machine learning

本文链接：https://blog.csdn.net/Frankkk_/article/details/81810586

版权

machine learning 专栏收录该内容

8 篇文章 0 订阅

订阅专栏

硬间隔SVM的SMO序列优化算法

上一篇文章(1)我们讨论了硬间隔SVM的推导及其对偶形式，其对偶问题可以化简成以下形式：

m i n α s . t . 1 2 \sum i = 1 N \sum j = 1 N α i α j y i y j x i \cdot x j - \sum i = 1 N α i \sum i = 1 N α i y i = 0 α i \geq 0 i = 1, 2, . . ., N

$\begin{align*} min_ \alpha\quad &\frac{1}{2}\sum_{i=1}^{N}\sum_{j=1}^{N}\alpha_{i}\alpha_{j}y_{i}y_{j}x_{i}\cdot x_{j}-\sum_{i=1}^{N}\alpha_{i}\\ s.t.\quad &\sum_{i=1}^{N}\alpha_{i}y_{i}=0\\ &\alpha_{i}\ge 0\\ &i=1,2,...,N \end{align*}$

该问题可以看作是一个以 $\alpha$ 为优化变量的二阶规划问题，二阶规划问题有很多成熟的解法，针对SVM的优化有一种最为高效的SMO序列优化算法。

SMO序列优化算法

SMO序列优化算法先将 $\alpha$ 的所有变量进行初始化，比如令 $\alpha_{1},\alpha_{2},...,\alpha_{N}=0，$ 再将 $\alpha$ 的其中两个分量看作变量，比如 $\alpha_{1},\alpha_{2}$ （在选取两个分量 $\alpha_{i},\alpha_{j}$ 的时候，通常先取违反上文中KKT条件最严重的为 $\alpha_{i}$ ，然后选取离 $x_{i}$ 间隔最远的 $x_{j}$ 对应的 $\alpha_{j}$ 为第二个变量），其余的 $\alpha_{3},\alpha_{4},...,\alpha_{N}$ 固定住，则根据约束条件 $\sum_{i=1}^{N}\alpha_{i}y_{i}=0$ 可以得到 $\alpha_{1}=-y_{1}\sum_{i=2}^{N}\alpha_{i}y_{i}$ 。上述问题即可以化为两个变量的二次规划问题(令 $K_{ij}=x_{i}\cdot x_{j}$ )：

m i n α 1, α 2 W (α 1, α 2) = s . t . 1 2 K 11 α 21 + 1 2 K 22 α 22 + y 1 y 2 K 12 α 1 α 2 - (α 1 + α 2) + y 1 α 1 \sum i = 3 N y i α i K i 1 + y 2 α 2 \sum i = 3 N y i α i K i 2 α 1 y 1 + α 2 y 2 = - \sum i = 3 N y i α i = ζ α 1, α 2 \geq 0

$\begin{align*} min_{\alpha_{1},\alpha_{2}}\quad W(\alpha_{1},\alpha_{2})=&\frac{1}{2}K_{11}\alpha_{1}^{2}+\frac{1}{2}K_{22}\alpha_{2}^{2}+y_{1}y_{2}K_{12}\alpha_{1}\alpha_{2}\\ &-(\alpha_{1}+\alpha_{2})+y_{1}\alpha_{1}\sum_{i=3}^{N}y_{i}\alpha_{i}K_{i1}+y_{2}\alpha_{2}\sum_{i=3}^{N}y_{i}\alpha_{i}K_{i2}\\ s.t.\quad &\alpha_{1}y_{1}+\alpha_{2}y_{2}=-\sum_{i=3}^{N}y_{i}\alpha_{i}=\zeta\\ &\alpha_{1},\alpha_{2}\ge0 \end{align*}$

在上述二次规划问题中，由于 $\alpha_{1}y_{1}+\alpha_{2}y_{2}=\zeta$ ，那么可以得到 $\alpha_{1}=(\zeta-y_{2}\alpha_{2})y_{1}$ ，将该约束条件代入 $W(\alpha_{1},\alpha_{2})$ 中即可以得到单变量的二次规划问题，如果先不考虑不等式约束条件，则可以直接得到解析解，不必利用数值计算的方式求解，这样可以大大提升计算速度。

令 $v_{i}=\sum_{j=3}^{N}\alpha_{j}y_{j}K(x_{i},x_{j})$ ，则将 $\alpha_{1}=(\zeta-y_{2}\alpha_{2})y_{1}$ 代入 $W(\alpha_{1},\alpha_{2})$ 可以得到：

W (α 2) = 1 2 K 11 (ζ - α 2 y 2) 2 + 1 2 K 22 α 22 + y 2 K 12 (ζ - α 2 y 2) α 2 - (ζ - α 2 y 2) y 1 - α 2 + v 1 (ζ - α 2 y 2) + y 2 v 2 α 2

$W(\alpha_{2})=\frac{1}{2}K_{11}(\zeta-\alpha_{2}y_{2})^{2}+\frac{1}{2}K_{22}\alpha_{2}^{2}+y_{2}K_{12}(\zeta-\alpha_{2}y_{2})\alpha_{2}-(\zeta-\alpha_{2}y_{2})y_{1}-\alpha_{2}+v_{1}(\zeta-\alpha_{2}y_{2})+y_{2}v_{2}\alpha_{2}$

直接令 $\frac{\partial W}{\partial\alpha_{2}}=0$ ，那么可以得到 $\alpha_{2}$ 的解析解为 $\hat\alpha_{2}=\alpha_{2}+\frac{y_{2}(E_{1}-E_{2})}{\eta}$ ，其中 $E_{i}=\sum_{j=1}^{N}\alpha_{j}y_{j}K_{ij}+b-y_{i}$ ， $\eta=K_{11}+K_{22}-2K_{12}$ 。此时得到的 $\hat\alpha_{2}$ 还没有考虑不等式约束 $\alpha_{1},\alpha_{2}\ge 0$ ，由 $\alpha_{1}=(\zeta-y_{2}\alpha_{2})y_{1}\ge0$ 与 $\alpha_{2}\ge0$ 可以解不等式得到 $\alpha_2$ 的上界 $H$ 与下界 $L$ ，即经过剪辑可以得到 $\alpha_{2}$ 的解析解为：

α∗2=⎧⎩⎨H,α^2>Hα^2,L≤α^2≤HL,α^2<L α 2 ∗ = { H , α ^ 2 > H α ^ 2 , L ≤ α ^ 2 ≤ H L , α ^ 2 < L

$\alpha_{2}^{*}= \begin{cases} H,\quad \hat\alpha_{2}>H\\ \hat\alpha_{2},\quad L\le\hat\alpha_{2}\le H\\ L,\quad \hat\alpha_{2}<L \end{cases}$

另外根据 $\alpha_{1}^{*}=(\zeta-y_{2}\alpha_{2}^{*})y_{1}$ 则可以得到 $\alpha_{1}^{*}$ ，这样便完成了SMO算法的一组变量的更新。重复进行变量选择，解析求解，变量剪辑的过程，直到 $\alpha$ 的所有变量都能满足文章(1)中的KKT条件为止，然后再根据文章(1)中 $w$ 与 $b$ 的计算公式便可以得到训练好的超平面，这样便完成了硬间隔SVM的数学推导过程，后面的文章还会继续介绍软间隔SVM的推导与核方法的应用。To be continue…

Frankkk_

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
[机器学习]SVM的推导(2)

硬间隔SVM的SMO序列优化算法上一篇文章(1)我们讨论了硬间隔SVM的推导及其对偶形式，其对偶问题可以化简成以下形式： minαs.t.12∑i=1N∑j=1Nαiαjyiyjxi⋅xj−∑i=1Nαi∑i=1Nαiyi=0αi≥0i=1,2,...,Nminα12∑i=1N∑j=1Nαiαjyiyjxi⋅xj−∑i=1Nαis.t.∑i=1Nαiyi=0αi≥0i=1,2,...,N\b...
复制链接

扫一扫

专栏目录