SVM支持向量机及SMO算法总结

最新推荐文章于 2023-11-06 14:19:27 发布

Liu_Genie

最新推荐文章于 2023-11-06 14:19:27 发布

阅读量422

点赞数

分类专栏：机器学习 SVM SMO

本文链接：https://blog.csdn.net/Mophistoliu/article/details/79781483

版权

机器学习同时被 3 个专栏收录

10 篇文章 0 订阅

订阅专栏

SVM

1 篇文章 0 订阅

订阅专栏

SMO

1 篇文章 0 订阅

订阅专栏

之所以写这篇文章，主要是因为SVM和SMO的算法看了很多遍才看懂，现在网络上也有很多相关的资料，这篇文章主要是记录自己的学习过程，集中在后面的证明求解过程。初学者建议先看底下的参考资料，把相关概念弄清楚了之后，如果在看论文过程中有疑惑的，可以过来看没看有没有参考的地方。

首先对于SVM（support vector machine）的理解为：寻找一个超分类平面，把不同分类的数据分隔开，且两边的最小间距最大。

这里写图片描述

函数间距与几何间距：

在Andrew Ng的材料中，涉及到两个间距的概念：函数间距与几何间距。

函数间距的定义： $\hat{\gamma}^{(i)} = y^{(i)}(w^{T}x+b)$ , 当 $w$ 和 $b$ 成比例变化，函数间距也成比例变化

几何间距的定义： $\gamma^{(i)} = \frac{y^{(i)}(w^{T}x+b)}{||w||}$ , 当 $w$ 和 $b$ 成比例变化，几何间距不变

最大化间距

SVM目标是最大化最小几何间距，故有：

最小几何间距： $\gamma = \min\limits_{i=1,..,m}\gamma^{(i)}$

$\max_{\gamma,w,b}\ \ \ \ \ \gamma$

$s.t. \ \ \ \ \ \ \ \ y^{(i)}(w^{T}x+b) \ge \gamma, i=1,...,m$

$\ \ \ \ \ \ \ \ \ \ \ \ \ \ \ ||w||=1$

第一个限制条件保证所有例子的函数间距大于我们的最小几何间距 $\gamma$ ， $||w||=1$ 保证了函数间距和几何间距等价。

由于该式子比较难求解，故我们可以考虑转换一下上式为：

$\max_{\gamma,w,b}\ \ \ \ \frac{\hat\gamma}{||w||}$

$s.t. \ \ \ \ \ \ \ \ y^{(i)}(w^{T}x+b) \ge \hat\gamma, i=1,...,m$

考虑到函数间距与 $w$ 和 $b$ 成比例变化，故成比例变化 $w$ 和 $b$ 不影响该最大式子，故可以考虑令 $\hat\gamma=1$

原式可变为：

$\max_{w,b}\ \ \ \ \ \frac{1}{||w||}$

$s.t. \ \ \ \ \ \ \ \ y^{(i)}(w^{T}x+b) \ge 1, i=1,...,m$

最后该式子等价为：

$\min_{w,b}\ \ \ \ \ \frac{1}{2}{||w||^2}$

$s.t. \ \ \ \ \ \ \ \ y^{(i)}(w^{T}x+b) \ge 1, i=1,...,m$

拉格朗日对偶

上面已经列出了我们需要求解 $w$ 和 $b$ 的式子，但是由于涉及到限制条件，很难直接求解。这时候就需要我们的朗格朗日乘子和朗格朗日对偶问题的知识了。

对于一般式子：

$min_w \ \ \ f(w)$

$s.t. \ \ \ g_i(w) \le 0, i=1,...,k$

$\ \ \ \ \ \ \ \ \ \ h_i(w)=0, i=1,...,k$

令 $\mathcal{L}(w, \alpha, \beta) = f(w) + \sum\limits_{i=1}^k\alpha_ig_i(w) + \sum\limits_{i=1}^l\beta_ih_i(w)$ , 该式子称为拉格朗日函数

在满足原式子的限制条件下有： $\max\limits_{\alpha, \beta:\alpha\ge0}\mathcal{L}(w, \alpha, \beta) = f(w)$

又有以下对偶式子：

$\max\limits_{\alpha, \beta:\alpha\ge0}\min\limits_{w}\mathcal{L}(w, \alpha, \beta) \le \min\limits_{w}\max\limits_{\alpha, \beta:\alpha\ge0}\mathcal{L}(w, \alpha, \beta) = \min_wf(w)$

当满足一定条件下时，我们有该等式成立。该条件称为KKT:

$\frac{\partial}{\partial{w_i}}\mathcal{L}(w, \alpha, \beta) = 0, i = 1,...,n$

$\frac{\partial}{\partial{\beta_i}}\mathcal{L}(w, \alpha, \beta) = 0, i = 1,...,l$

$\alpha_ig_i(w) = 0, i = 1,...k$

$g_i(w) \le 0, i = 1,...k$

$\alpha_i \ge 0, i = 1,...k$

在满足以上KKT条件下，原来求 $f(w)$ 在限制条件下的最小值就可以等价转换为求 $\max\limits_{\alpha, \beta:\alpha\ge0}\min\limits_{w}\mathcal{L}(w, \alpha, \beta)$

应用拉格朗日求解最小间隙最大值

构造朗格朗日函数：

$\mathcal{L}(w, b, \alpha) = \frac{1}{2}||w||^2 + \sum\limits_{i=1}^m\alpha_i(1-y^{(i)}(w^Tx^{(i)}+b))$

根据KKT条件有：

$\frac{\partial}{\partial{w}}\mathcal{L} = 0$

$\frac{\partial}{\partial{b}}\mathcal{L} = 0$

得到以下结果：

$w = \sum\limits_{i=1}^{m}\alpha_iy^{(i)}x^{(i)}$

$\sum\limits_{i=1}^m\alpha_iy^{(i)} = 0$

以上结果回代入拉格朗日函数得到：

$\mathcal{L}(w, b, \alpha) = \sum\limits_{i=1}^m\alpha_i - \frac{1}{2}\sum\limits_{i,j=1}^my^{(i)}y^{(j)}\alpha_i\alpha_j(x^{(i)})^Tx^{(j)}$

故原式子可等价为：

$\max_\alpha \ \ \ \ W(\alpha) = \sum\limits_{i=1}^m\alpha_i - \frac{1}{2}\sum\limits_{i,j=1}^my^{(i)}y^{(j)}\alpha_i\alpha_j<(x^{(i)}),x^{(j)}>$

$s.t. \ \ \ \ \ \ \alpha_i \ge 0, i = 1,...m$

$\ \ \ \ \ \ \ \ \ \ \ \ \ \sum\limits_{i=1}^m\alpha_iy^{(i)} = 0$

<(x(i)),x(j)> <script type="math/tex" id="MathJax-Element-172"><(x^{(i)}),x^{(j)}></script>表示两个向量的内积. 实际上，可以用核函数来表示两个向量的相似度，这样，我们的SVM模型就可以应用在一些非线性可分的问题上。

正则化及不可分情形讨论

实际上的问题经常是，我们无法找到一个线性可分的超分类平面，这样，我们之前的限制条件是无法被满足的。那么前面做的这么多工作都只能应用于可分的情况吗？

之前我们的限制条件是非常严格的 $y^{(i)}(w^{T}x+b) \ge 1$ , 但是我们可以考虑加入一些松弛变量 $\zeta$ 来打破这种情况，同时对于这种情况要加一些惩罚条件，故原先的式子可改写成：

$\min_{w,b}\ \ \ \ \ \frac{1}{2}{||w||^2} + C\sum\limits_{i=1}^m\zeta_i$

$s.t. \ \ \ \ \ \ \ \ y^{(i)}(w^{T}x+b) \ge 1-\zeta_i, i=1,...,m$

$\ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \zeta_i \ge 0, i=1,...,m$

还是构造拉格朗日函数:

$\mathcal{L}(w, b, \alpha) = \frac{1}{2}||w||^2 + C\sum\limits_{i=1}^m\zeta_i + \sum\limits_{i=1}^m\alpha_i(1-\zeta_i-y^{(i)}(w^Tx^{(i)}+b)) + \sum\limits_{i=1}^mr_i(-\zeta_i)$

$w$ , $b$ , $\zeta$ 分别对 $\mathcal{L}$ 偏导可以得到：

$w = \sum\limits_{i=1}^{m}\alpha_iy^{(i)}x^{(i)}$

$b = -\sum\limits_{i=1}^m\alpha_iy^{(i)} = 0$

$C-\alpha_i-r_i=0, i = 1,..,m$

由于 $r_i \ge 0$ , $\alpha_i \ge 0$

故由 $C-\alpha_i-r_i=0, i = 1,..,m$ 可得 $0 \le \alpha_i \le C, i=1,...,m$

把 $w$ , $b$ 回代回去，原式子可以等价为:

$\max_\alpha \ \ \ \ W(\alpha) = \sum\limits_{i=1}^m\alpha_i - \frac{1}{2}\sum\limits_{i,j=1}^my^{(i)}y^{(j)}\alpha_i\alpha_j<(x^{(i)}),x^{(j)}>$

$s.t. \ \ \ \ \ \ \ 0 \le \alpha_i \le C, i = 1,...m$

$\ \ \ \ \ \ \ \ \ \ \ \ \ \sum\limits_{i=1}^m\alpha_iy^{(i)} = 0$

且再次检查KKT条件，有：

$\alpha_i(1-\zeta_i-y^{(i)}(w^Tx^{(i)}+b)) = 0$

$1-\zeta_i-y^{(i)}(w^Tx^{(i)}+b) \le 0$

$r_i(-\zeta_i) = 0$

$-\zeta_i \le 0$

$\zeta_i \ge 0$

$\alpha_i \ge 0$

对 $\alpha_i$ 进行讨论(由KKT条件)有：

$\alpha_i = 0 \Rightarrow y^{(i)}(w^Tx^{(i)}+b) \ge 1$

$\alpha_i = C \Rightarrow y^{(i)}(w^Tx^{(i)}+b) \le 1$

$0 \le \alpha_i \le C \Rightarrow y^{(i)}(w^Tx^{(i)}+b) = 1$

SMO优化

前面已经做了很多工作，现在目标函数已经有了. 接下来就是需要 $\alpha$ 使得我们的目标函数取到最大值。参考资料中的SMO论文求目标函数的最小值:

$\min\limits_{\alpha}\ \ \Psi(\alpha) = \min\limits_{\alpha} \frac{1}{2}\sum\limits_{i,j=1}^my^{(i)}y^{(j)}\alpha_i\alpha_jK(x^{(i)},x^{(j)}) - \sum\limits_{i=1}^m\alpha_i$

$s.t. \ \ \ \ \ \ \ 0 \le \alpha_i \le C, i = 1,...m$

$\ \ \ \ \ \ \ \ \ \ \ \ \ \sum\limits_{i=1}^m\alpha_iy^{(i)} = 0$

取出一对 $\alpha_1, \alpha_2$ 我们有 $\alpha_1y^{(1)}+\alpha_2y^{(2)}=k=-\sum\limits_{i=3}^m\alpha_iy^{(i)}$ 故有如下图关系

这里写图片描述

分两种情况讨论： $y_1, y_2$ 不同号以及 $y_1, y_2$ 同号

其中对应的 $\alpha_2$ 的边界为：

同号情况： $L = max(0, \alpha_2-\alpha_1), H = min(C, C+\alpha_2-\alpha_1)$
异号： $L = max(0, \alpha_2+\alpha_1-C), H = min(C, \alpha_2+\alpha_1)$

化简目标函数，把 $\alpha_1, \alpha_2$ 提取出来：

令 $s = y_1y_2, K_{ij}=K(x_i, x_j)$

$\Psi(\alpha) = \frac{1}{2}\alpha_1^2K_{11} + \frac{1}{2}\alpha_2^2K_{22} + s\alpha_1\alpha_2K_{12}-\alpha_1-\alpha_2 + y_1\alpha_1v_1 + y_2\alpha_2v_2 + \Psi_{const}$

其中有：

$v_i = \sum\limits_{j=3}^m\alpha_j^*y_jK_{ij} = u_i + b^* - y_1\alpha_1^*K_{1i} - y_2\alpha_2^*K_{2i}$ ( $\alpha_1^*$ 表示旧的值)

则有 $\alpha_1 + s\alpha_2 = -y_1\sum\limits_{i=3}^m\alpha_iy_i = \alpha_1^* + s\alpha_2^* = t$

把 $\alpha_1 = t - s\alpha_2$ 代入目标函数有：

$\Psi(\alpha) = \frac{1}{2}(t-s\alpha_2)^2K_{11} + \frac{1}{2}\alpha_2^2K_{22} + s(t-s\alpha_2) \alpha_2K_{12}-(t-\alpha_2)-\alpha_2 + y_1(t-s\alpha_2)v_1 + y_2\alpha_2v_2 + \Psi_{const}$

目标函数对 $\alpha_2$ 求导并令其为0：

$\frac{\partial}{\partial\alpha_2}\Psi(\alpha) = \alpha_2(K_{11} + K_{22} - 2K_{12}) - st(K_{11}-K{12}) - y_2(v_1-v_2)+s-1 = 0$

把 $t = \alpha_1^* + s\alpha_2^*, v_i = \sum\limits_{j=3}^m\alpha_j^*y_jK_{ij} = u_i + b^* - y_1\alpha_1^*K_{1i} - y_2\alpha_2^*K_{2i}$ 代入上式得:

$\alpha_2(K_{11}+K_{22}-2K_{12}) = \alpha_2^*(K_{11}+K_{22}-2K_{12}) + y_2(u_1-u_2+y_2-y_1)$

目标函数对 $\alpha_2$ 进行二次求导有:

$\frac{\partial}{\partial^2\alpha_2}\Psi(\alpha) = \eta = K_{11}+K_{22}-2K_{12}$

当 $\eta > 0$ 有：

$\alpha_2^{new} = \alpha_2^* + \frac{y_2(E_1-E_2)}{\eta}$

$\alpha_1^{new} = \alpha_1 + s(\alpha_2-\alpha_2^{new, clipped})$
当 $\eta \le 0$ 有，此时易知 $\alpha_2$ 取到边界时，目标函数最小：

$f_1 = y_1(E_1+b)-\alpha_1K_{11}-s\alpha_2K_{12},$

$f_2 = y_2(E_2+b)-s\alpha_1K_{12}-\alpha_2K_{22},$

$L_1 = \alpha_1 + s(\alpha_2-L)$

$H_1 = \alpha_1 + s(\alpha_2-H)$

$\Psi_L = L_1f_1 + Lf_2 + \frac{1}{2}L_1^2K_{11} + \frac{1}{2}L^2K_{22} + sLL_1K_{12}$

$\Psi_H = H_1f_1 + Hf_2 + \frac{1}{2}H_1^2K_{11} + \frac{1}{2}H^2K_{22} + sHH_1K_{12}$

对比 $\Psi_L, \Psi_H$ , 取值较小的那个
每次更新完 $\alpha$ 后都需要更新b值：

当 $\alpha_1$ 不在界上时:

$b^{new} = b_1 = E_1 + y_1(\alpha_1^{new}-\alpha_1)K_{11}+y_2(\alpha_2^{new, clipped}-\alpha_2)K_{12}+b$

当 $\alpha_2$ 不在界上时:

$b^{new} = b_2 = E_2 + y_1(\alpha_1^{new}-\alpha_1)K_{12}+y_2(\alpha_2^{new, clipped}-\alpha_2)K_{22}+b$

当双方都在界上时：

$b = \frac{b_1+b_2}{2}$

推荐相关参考资料：

Andrew Ng在网易公开课的课堂资料，其中part V涉及到SVM. http://cimg3.163.com/edu/open/ocw/jiqixuexikecheng.zip
John Platt的SMO论文. https://www.microsoft.com/en-us/research/wp-content/uploads/2016/02/smo-book.pdf
JerryLead的博客. http://www.cnblogs.com/jerrylead/archive/2011/03/18/1988415.html#undefined

Liu_Genie

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
SVM支持向量机及SMO算法总结

之所以写这篇文章，主要是因为SVM和SMO的算法看了很多遍才看懂，现在网络上也有很多相关的资料，这篇文章主要是记录自己的学习过程，集中在后面的证明求解过程。初学者建议先看底下的参考资料，把相关概念弄清楚了之后，如果在看论文过程中有疑惑的，可以过来看没看有没有参考的地方。首先对于SVM（support vector machine）的理解为：寻找一个超分类平面，把不同分类的数据分隔开，且两边的最...
复制链接

扫一扫