SVM——（七）SMO（序列最小最优算法）

最新推荐文章于 2022-07-19 15:22:36 发布

空字符（公众号：月来客栈）

最新推荐文章于 2022-07-19 15:22:36 发布

阅读量1.9k

点赞数 2

分类专栏：机器学习文章标签： svm class

本文链接：https://blog.csdn.net/The_lastest/article/details/78637565

版权

本文介绍了SMO（Sequential Minimal Optimization）算法，对比了坐标上升算法，并详细阐述了SMO解决SVM优化问题的过程，包括如何选择变量、处理约束条件以及优化步骤。通过对坐标下降法的理解，探讨了SMO在解决线性不可分问题中的应用。

摘要由CSDN通过智能技术生成

在说SMO (Sequential minimal optimization)之前，先介绍一种与之类似的算法，坐标上升（下降）算法.

1.Coordinate ascent

所谓坐标上升（下降）指的是同一个算法，只是若实际问题是求极大值则是上升，反之为下降。我们知道梯度下降算法在每次迭代过程中都是沿着梯度的（反）方向进行的；而坐标下降算法则是在每次迭代中分步沿着你n个(n为特征维度)方向进行的。下图是2维情况下，两者求解的示意图。

这里写图片描述

具体的就是每次只把第i个变量看做是未知数，其他看做常数进行求导，令为0解出第i个变量。求出所有参数的表达式后，利用旧的参数一次更新得到每一个新的参数。也就是：梯度下降强调所有参数同时（simultaneously)更新,而坐标下降则是每个参数分别更新

下面是一个两者的一个代码片段：

% gradient descent

for i = 1:200
    grad(1)=4*x1-2*x2-4;
    grad(2)=-2*x1+10*x2-24;% 都是用旧的参数得到梯度
    x = x-alpha*grad;% 同时更新得到新的参数
    f1 = f(x(1),x(2));
end

% coordinate descent 
for i = 200
    x1=1+0.5*x2;
    x2=2.4+0.2*x1;% 用上一步更新的参数，来更新另外一个参数，未同时
    f2 = f(x1,x2);
end

源码地址

2.SMO算法

如下我们要之前推导出来要优化的目标函数：
$\begin{aligned} \max_{\alpha} &W(\alpha)=\sum_{i=1}^m\alpha_i-\frac{1}{2}\sum_{i,j=1}^my^{(i)}y^{(j)}\alpha_i\alpha_j\langle x^{(i)},x^{(j)}\rangle\\[1ex] s.t. &0\leq\alpha_i\leq C,i=1,...,m\\[1ex] &\sum_{i=1}^m\alpha_iy^{(i)}=0\tag{2.1} \end{aligned}$

照着上面的想法，我们是否也能将同样的思路用在此处呢？答案是否定的，因为此处多了一个约束条件。

例如，我们将 $\alpha_1$ 看做是未知量，其它视为常量，那么由约束条件我们可以得到：
$\begin{aligned} \alpha_1y^{(1)}=-\sum_{i=1}^m\alpha_iy^{(i)} \;\;(\textrm{两边同乘以}y^{(1)})\\[1ex] \alpha_1=-y^{(1)}\sum_{i=2}^m\alpha_iy^{(i)}\tag{2.2} \end{aligned}$