一文看懂序列最小最优化算法---SMO

最新推荐文章于 2024-04-30 12:56:52 发布

钉马掌的小铁匠

最新推荐文章于 2024-04-30 12:56:52 发布

阅读量1.8k

点赞数 1

分类专栏：机器学习文章标签：算法 smo算法机器学习 svm 支持向量机

本文链接：https://blog.csdn.net/qq_39482438/article/details/106908049

版权

一、SMO的背景介绍

序列最小最优化算法（sequential minimal optimization，SMO）于1998年被John Platt发明，是一种用于解决支持向量机训练期间出现的二次规划问题的算法。在SMO之前也有一些算法用于解决此类问题，但是这些算法都比较复杂，所以高效的SMO提出之时就在SVM社区引起了一阵轰动。

二、从SVM说起—SMO要解决什么

如何优化SVM的参数？首先我们通过拉格朗日乘子法建立拉格朗日函数，再根据拉格朗日的对偶性求解极大极小值问题。这些，我已经在《支持向量机一：线性支持向量机介绍》、《支持向量机二：非线性支持向量机》中介绍，感兴趣的朋友可以看一下。
非线性优化最终要解决一个二次规划问题，即 $min_a \ \ \frac{1}{2}\sum_{i=1}^N\sum_{j=1}^Na_ia_jy_iy_jK(x_i,x_j)-\sum_{i=1}^Na_i\ \ ... \ \ (1)\\\ s.t. \ \ \sum_{i=1}^Na_iy_i=0,\ \ \ i=1,2,.,N\ \ ...\ \ (2)\\\ 0\leq a_i\leq C,\ \ \ i=1,2,.,N\ \ ...\ \ (3)$ 我们知道（不知道的请打开上面两个链接）非线性SVM的超平面可以写成 $\sum_{i=1}^Na_iy_iK(x_i,x)+b=0\ \ ...\ \ (4)$ 分类决策函数可以写成 $f(x)=sign(\sum_{i=1}^Na_iy_iK(x_i,x)+b)\ \ ...\ \ (5)$ 此时式(4)(5)中的 $a_i,b$ 都是未知数，需要求解。如何通过数据集 $D=\{(x_1,y_1),(x_2,y_2),...,(x_N,y_N)\}$ 求得非线性SVM的分离超平面和分类决策函数？

首先，我们通过SMO算法求解式(1)(2)(3)的最优解 $a^*=(a_1^*,a_2^*,...,a_N^*)^T$ 其次，我们从 $a^*$ 中选择一个分量 $a_j^*$ ( $0<a_j^*< C$ ，即支持向量中的样本点对应的 $a_j$ )，根据支持向量满足的条件得 $b^*=y_j-\sum_{i=1}^Na_i^*y_iK(x_i,x)$ 于是，我们求得分离超平面： $\sum_{i=1}^Na_i^*y_iK(x_i,x)+b^*=0$ 还有分类决策函数： $f(x)=sign(\sum_{i=1}^Na_i^*y_iK(x_i,x)+b^*)$

从以上的过程，你应该明白SMO主要用在求解式(1)(2)(3)中的 $a_i$ 的。

三、SMO的策略

你需要求得不是一个 $a_i$ ，而是一连串的 $a=(a_1,a_2,...,a_N)^T$ 。 $a_i$ 是拉格朗日乘子，从式(5)也能看出，一个 $a_i$ 对应一个样本点 $x_i,y_i)$ ，也就是说数据集 $D$ 的样本容量N越大，需要求解的参数 $a_i$ 就越多。考虑一下你做过的数据集，是不是N在一百以内已经是一个小数据集？
面对如此多的参数，以前的解决算法局限明显，直到SMO出世，并且SMO的出世还带火了SVM（是不是像硬件的提升带火了深度学习）。
面对如此多的参数 $a_i$ ，SMO是如何求解的呢？既然一下子求这么多参数难求，不如一次只求解两个，即 “固定其他变量，一次只求两个变量，直到求出所有变量”。
没懂？我再罗嗦点。对于 $a=(a_1,a_2,...,a_N)^T$ ，求解步骤如下：

设定 $a^{(0)}=0$ ;
按一定规则选取 $a_1，a_2$ ，固定其它的 $a_i \ (i \geq 3)$ ；
优化 $a_1，a_2$ 直至其满足条件，此时求解了参数 $a_1，a_2$ ；
按一定规则选取 $a_3，a_4$ ，固定其他参数 $a_i$ ，此时包含计算好的 $a_1，a_2$ ；
优化 $a_3，a_4$ 直至其满足条件，此时求解了参数 $a_3，a_4$ ；
然后重复以上方法求 $a_5,a_6),(a_7,a_8),....$

如果懂了，就继续阅读下去吧。

四、SMO的求解过程

我们探讨 $a_1$ 、 $a_2$ 的求解过程，此时固定参数 $a_i\ (i=3,4,...,N)$ 。因此，SMO最优化式(1)(2)(3)的子问题可以写成

最低0.47元/天解锁文章

钉马掌的小铁匠

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
一文看懂序列最小最优化算法---SMO

一、SMO的背景介绍序列最小最优化算法（sequential minimal optimization，SMO）于1998年被John Platt发明，是一种用于解决支持向量机训练期间出现的二次规划问题的算法。在SMO之前也有一些算法用于解决此类问题，但是这些算法都比较复杂，所以高效的SMO提出之时就在SVM社区引起了一阵轰动。二、从SVM说起—SMO要解决什么如何优化SVM的参数？首先我们通过拉格朗日乘子法建立拉格朗日函数，再根据拉格朗日的对偶性求解极大极小值问题。这些，我已经在《支持向量机一：线性
复制链接

扫一扫