笔记(总结)-SVM(支持向量机)的理解-4

最新推荐文章于 2024-05-03 16:19:49 发布

ZSYGOOOD

最新推荐文章于 2024-05-03 16:19:49 发布

阅读量423

点赞数

分类专栏：科研|算法|论文 MasterWork-UCAS 机器学习相关长篇笔记文章标签： SVM SMO 坐标上升法机器学习

本文链接：https://blog.csdn.net/BitCs_zt/article/details/79246427

版权

MasterWork-UCAS 同时被 3 个专栏收录

67 篇文章 1 订阅

订阅专栏

科研|算法|论文

59 篇文章 0 订阅

订阅专栏

笔记

53 篇文章 0 订阅

订阅专栏

前三篇主要是介绍SVM的原理。最初SVM的原问题是凸二次优化问题，有现成的算法可以求解，费尽周折转换到对偶问题，一是在对偶问题形势下可以使用核函数，二是对偶问题我们可以高效求解。本篇主要介绍如何求解SVM。

SMO：Sequential Minimal Optimization

Coordinate Ascent（坐标上升法）

回到我们的对偶问题：

maxW(α)=∑iαi−12∑i∑jαiαjyiyjxTixj max W ( α ) = ∑ i α i − 1 2 ∑ i ∑ j α i α j y i y j x i T x j $\max W(\alpha)=\sum_i \alpha_i- \frac{1}{2}\sum_i\sum_j\alpha_i\alpha_j y_i y_j x_i^T x_j$

s.t. ∑iαiyi=0, 0≤αi≤C s . t . ∑ i α i y i = 0 , 0 ≤ α i ≤ C $s.t. \ \sum_i \alpha_i y_i=0, \ 0\leq \alpha_i \leq C$

上述问题仅仅是关于一系列 $\alpha$ 的优化问题，即：

maxαW(α1,...,αm) m a x α W ( α 1 , . . . , α m ) $max_\alpha W(\alpha_1,...,\alpha_m)$

考虑使用坐标上升法解决该问题：
这里写图片描述
算法内层循环将 $\alpha_i$ 看做变量，其他的 $\alpha$ 看做常量进行优化。在二维情况下，函数等高线图的优化路线如下：

可以看到，每一步优化中，都固定了一个变量，让另一个变量取值使目标函数“最优”，交替更新两个变量直到收敛或达到某种停止条件。然而由于如下限制，无法在对偶问题中使用坐标上升法求解：

α1=−y1∑ni=2αiyi α 1 = − y 1 ∑ i = 2 n α i y i $\alpha_1=-y_1\sum_{i=2}^n \alpha_i y_i$

假如我们想固定其他变量，更新 $\alpha_1$ ，由于对偶问题的约束，固定其他变量后 $\alpha_1$ 为常量。

SMO Algorithm

只选取一个 $\alpha_i$ 更新是不行的，那么考虑一次至少更新两个变量。这便是SMO算法的动机由来，算法如下：
这里写图片描述

算法思想很简洁，先按某种方式选定要更新的两个变量 $\alpha_i,\alpha_j$ ，然后固定其它变量对 $\alpha_i,\alpha_j$ 进行更新来优化 $W(\alpha)$ 。

优化步骤

例如我们现在想优化 $\alpha_1,\alpha_2$ ，由约束可以得到：

α1y1+α2y2=−∑ni=3αiyi=常数,记为ζ α 1 y 1 + α 2 y 2 = − ∑ i = 3 n α i y i = 常数 , 记为 ζ $\alpha_1y_1+\alpha_2y_2=-\sum_{i=3}^n\alpha_iy_i=常数,记为\zeta$

又由对偶问题约束 $0\leq\alpha_i \leq C$ 可以得到可行解如下图， $\alpha_1,\alpha_2$ 必须位于直线 $\alpha_1y_1+\alpha_2y_2=\zeta$ 被矩形区域 $[0,C]\times[0,C]$ 截断的线段上：
这里写图片描述

由直线约束可以将 $\alpha_1$ 表示为 $\alpha_2$ 的函数，即：

α1=(ζ−α2y2)y1 α 1 = ( ζ − α 2 y 2 ) y 1 $\alpha_1=(\zeta-\alpha_2y_2)y_1$

由此得到目标函数的表达式为：

W=W((ζ−α2y2)y1,α2,...,αm) W = W ( ( ζ − α 2 y 2 ) y 1 , α 2 , . . . , α m ) $W=W((\zeta-\alpha_2y_2)y_1,\alpha_2,...,\alpha_m)$

将目标函数展开，得到一个关于 $\alpha_2$ 的开口向下的二次函数，当不考虑矩形区域约束时可以直接求导，得到最优解 $\alpha_2^{opt}$ 。然而实际情况中由于矩形约束， $\alpha_2$ 通常有取值区间 $[L,H]$ ，考虑最优解和取值区间的关系，更新得到实际最优值：

α * 2 = ⎧ ⎩ ⎨ ⎪ ⎪ H, α o p t 2 > H α o p t 2, L \leq α o p t 2 \leq H L, α o p t 2 < H

$\alpha_2^*=\begin{cases} H, \ \ \ \ \alpha_2^{opt}>H \\ \alpha_2^{opt}, \ L \leq \alpha_2^{opt} \leq H \\ L, \ \ \ \ \alpha_2^{opt}<H \end{cases}$

当得到 $\alpha_2^*$ 后，可以依据直线约束更新 $\alpha_1$ 。

选择步骤

选择违反KKT条件最多的样本对应的 $\alpha$ 作为第一个变量，即对于每个训练样本，检查是否满足KKT条件（可参考SVM第2篇），选择不满足中程度最大者：

αi=0⟺xi非支持向量⟺yi(wTx+b)≥1 α i = 0 ⟺ x i 非支持向量 ⟺ y i ( w T x + b ) ≥ 1 $\ \ \ \ \ \ \ \ \ \ \alpha_i=0 \Longleftrightarrow x_i非支持向量 \Longleftrightarrow y_i(w^Tx+b) \geq1$

0<αi<C⟺xi在边界上⟺yi(wTx+b)=1 0 < α i < C ⟺ x i 在边界上 ⟺ y i ( w T x + b ) = 1 $0<\alpha_i<C \Longleftrightarrow x_i在边界上 \Longleftrightarrow y_i(w^Tx+b) = 1$

αi=C⟺xi可能被错误分类⟺yi(wTx+b)≤1 α i = C ⟺ x i 可能被错误分类 ⟺ y i ( w T x + b ) ≤ 1 $\ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \alpha_i=C \Longleftrightarrow x_i可能被错误分类 \Longleftrightarrow y_i(w^Tx+b)\leq1$

对于第二个变量，应该选择一个使目标函数数值增长最快的变量，但由于比较各变量所对应的目标函数值增幅的复杂度过高，SMO采用启发式规则，使选取的两变量对应样本之间间隔最大，直观上看，这样选取的两个变量差异较大，相比于对两个相似变量进行更新，差异更大的变量能对目标函数带来更大的变化。

至此我们得到了SMO的完整算法。

四篇过后，SVM基本讲述清楚。参考来源之前的总结博客有记述传送门，同时还参考了国科大《模式识别与机器学习》091M4042H课程兰艳艳老师slides。

ZSYGOOOD

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
笔记(总结)-SVM(支持向量机)的理解-4

前三篇主要是介绍SVM的原理。最初SVM的原问题是凸二次优化问题，有现成的算法可以求解，费尽周折转换到对偶问题，一是在对偶问题形势下可以使用核函数，二是对偶问题我们可以高效求解。本篇主要介绍如何求解SVM。SMO：Sequential Minimal OptimizationCoordinate Ascent（坐标上升法）回到我们的对偶问题： maxW(α)=∑iαi−12∑...
复制链接

扫一扫

专栏目录