SVM——(七)SMO(序列最小最优算法)

本文介绍了SMO(Sequential Minimal Optimization)算法,对比了坐标上升算法,并详细阐述了SMO解决SVM优化问题的过程,包括如何选择变量、处理约束条件以及优化步骤。通过对坐标下降法的理解,探讨了SMO在解决线性不可分问题中的应用。
摘要由CSDN通过智能技术生成

在说SMO (Sequential minimal optimization)之前,先介绍一种与之类似的算法,坐标上升(下降)算法.

1.Coordinate ascent

所谓坐标上升(下降)指的是同一个算法,只是若实际问题是求极大值则是上升,反之为下降。我们知道梯度下降算法在每次迭代过程中都是沿着梯度的(反)方向进行的;而坐标下降算法则是在每次迭代中分步沿着你n个(n为特征维度)方向进行的。下图是2维情况下,两者求解的示意图。

这里写图片描述

具体的就是每次只把第i个变量看做是未知数,其他看做常数进行求导,令为0解出第i个变量。求出所有参数的表达式后,利用旧的参数一次更新得到每一个新的参数。也就是:梯度下降强调所有参数同时(simultaneously)更新,而坐标下降则是每个参数分别更新

下面是一个两者的一个代码片段:

% gradient descent

for i = 1:200
    grad(1)=4*x1-2*x2-4;
    grad(2)=-2*x1+10*x2-24;% 都是用旧的参数得到梯度
    x = x-alpha*grad;% 同时更新得到新的参数
    f1 = f(x(1),x(2));
end

% coordinate descent 
for i = 200
    x1=1+0.5*x2;
    x2=2.4+0.2*x1;% 用上一步更新的参数,来更新另外一个参数,未同时
    f2 = f(x1,x2);
end

源码地址

2.SMO算法

如下我们要之前推导出来要优化的目标函数:
max ⁡ α W ( α ) = ∑ i = 1 m α i − 1 2 ∑ i , j = 1 m y ( i ) y ( j ) α i α j ⟨ x ( i ) , x ( j ) ⟩ s . t . 0 ≤ α i ≤ C , i = 1 , . . . , m ∑ i = 1 m α i y ( i ) = 0 (2.1) \begin{aligned} \max_{\alpha} &W(\alpha)=\sum_{i=1}^m\alpha_i-\frac{1}{2}\sum_{i,j=1}^my^{(i)}y^{(j)}\alpha_i\alpha_j\langle x^{(i)},x^{(j)}\rangle\\[1ex] s.t. &0\leq\alpha_i\leq C,i=1,...,m\\[1ex] &\sum_{i=1}^m\alpha_iy^{(i)}=0\tag{2.1} \end{aligned} αmaxs.t.W(α)=i=1mαi21i,j=1my(i)y(j)αiαjx(i),x(j)0αiC,i=1,...,mi=1mαiy(i)=0(2.1)

照着上面的想法,我们是否也能将同样的思路用在此处呢?答案是否定的,因为此处多了一个约束条件。

例如,我们将 α 1 \alpha_1 α1看做是未知量,其它视为常量,那么由约束条件我们可以得到:
α 1 y ( 1 ) = − ∑ i = 1 m α i y ( i )      ( 两边同乘以 y ( 1 ) ) α 1 = − y ( 1 ) ∑ i = 2 m α i y ( i ) (2.2) \begin{aligned} \alpha_1y^{(1)}=-\sum_{i=1}^m\alpha_iy^{(i)} \;\;(\textrm{两边同乘以}y^{(1)})\\[1ex] \alpha_1=-y^{(1)}\sum_{i=2}^m\alpha_iy^{(i)}\tag{2.2} \end{aligned} α1y(1)=i=1mαiy(i)(两边同乘以y(1)

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值