机器学习:支持向量机(SVM)与Python实现第(四)篇

本文是支持向量机(SVM)与Python实现系列的第四篇,主要介绍SMO算法,该算法是解决SVM对偶问题的有效方法。文章首先回顾坐标上升算法,然后详细阐述SMO算法的优化过程,包括如何选择参数变量、计算L和H、求解α2以及更新b的值。最后,提供了基于Python的SVM分类器实现代码片段。
摘要由CSDN通过智能技术生成

前言

最近看了Andrew Ng的机器学习视频中的支持向量机,视频的内容比较浅显,没有深入解释支持向量机中的数学原理。但是对于一个比较执着于知道为什么的人,笔者还是去网上查找了有关支持向量机原理以及实现的相关资料。在查找的过程中,笔者发现支持向量机的内容还是蛮多的,于是笔者根据自己的理解,并且参考了一些相关资料,最终写下了支持向量机的四篇博客。
机器学习:支持向量机(SVM)与Python实现第(一)篇——此篇主要介绍了分类间隔,引入SVM。
机器学习:支持向量机(SVM)与Python实现第(二)篇——此篇主要介绍了使用拉格朗日乘子来简化SVM问题的优化。
机器学习:支持向量机(SVM)与Python实现第(三)篇——此篇主要介绍非线性分类(核函数)以及松弛变量。
机器学习:支持向量机(SVM)与Python实现第(四)篇——此篇主要介绍SMO算法并用python实现了简单的SVM分类器。


前面讲了这么多,终于要用Python来真正实现SVM训练数据集了!在这里,我们使用的是SMO(swquential minimal optimization)算法,一种高效的解决SVM中的对偶问题的方法。

在我们介绍SMO算法之前,我们先来了解一下另外一个算法,它是SMO算法基础。这个算法就是坐标上升(下降)算法。

坐标上升算法(coordinate ascent)

假如我们现在要来解决下面这个无限制的优化问题:

maxα W(α1,α2,...,αm)
其中,W是一个关于参数 α 的函数。那么我可以使用坐标上升算法来解决,即:
这里写图片描述
在内层循环中,我们每一次都只优化一个 αi ,对于其他的参数,都保持不变。上面的示例中,优化是按照 α1,α2,...,αm 的顺序进行优化的,事实上,我们也可以选择那个能使W增加最快的 α 。下面这张图是对这个算法的直观理解:
这里写图片描述
图中显示的是一个二维的情况,每一次都会选择一个方向进行优化,而不是像梯度下降去找下降最快的方向。其实它相当于把梯度下降分成两步来做。

SMO

现在我们回到我们的SMO算法上来,我们上一篇博文最后得到了下面的优化问题:

maxα s.t  W(α)=i=1mαi12i,j=1my(i)y(j)αiαjx(i),x(j)                 (1)0αiC, i=1,...,m                 (2)i=1mαiy(i)=0                 (3)
假设我们有一组 α 满足了方程(2)和(3),我们先固定住 α2,...,αm ,只单独对 α1 进行优化。这样有意义吗?

显然没有。原因在于方程(3)是限制条件,一旦 α2,...,αm 都确定了,那么 α1 也就确定了,所以这样是优化不了的。因此,如果我们想使用坐标上升算法,我们应该每次优化两个参数变量。这就是SMO算法:

这里写图片描述
一般来说,为了判断是否收敛了,可以检查KKT条件是否收敛到了一定程度,我们可以用一个收敛参数来判断,一般来说这个参数的值在0.001到0.01之间。

接下来我们就来看看这个算法最主要的过程。首先我们选择了两个参数 α1α2 (其他的参数固定不变),根据方程(3)我们可以得到:

α1y(1)+α2y(2)=i=3mαiy(i)
由于 α3,...,αm 都是固定的,所以方程右边其实是一个常数,我们记为 ζ 也就是:
α1y(1)+α2y(2)=ζ                 (4)

方程(4)其实就是二维平面上的一条直线,我们可以画出图像:
这里写图片描述
从不等式(2)我们可以知道 α1α2 都是大于0,小于C的。所以它们的取值范围是在这个矩形范围内。同时,它们又满足方程(4)的条件,所以是在这条直线上。在这种限制下,其实 α2 的取值范围就为 Lα2H 。在上图这个例子中,L=0。通过方程(4),我们也可以用 α2 来表示 α1
α1=(ζα2y(2))y(1)

根据方程(1)的形式,而且现在变量只有 α2 ,你可以发现现在 W(α) 是关于 α2 的二次函数(即可以写成 W=aα22+bα2+c 的形式)。如果我们不去考虑上面说的限制(即 Lα2H ),那么我们可以轻易地算出最大值,只需要对其求导并让导数为0解出 α2 即可。假设我们现在解出了 α2 的结果为 αnew,unclipped2 ,将限制条件考虑进来,我们就可以得到:
αnew2=H                 if αnew,unclipped2>Hαnew,unclipped2   if Lαnew,unclipped2HL                if αnew,unclipped2<L
这样获得了 αnew2 ,就可以解出 αnew1 当然这里 α1α2 是随便选的,数据量小的时候没什么问题,数据量大了就可能会很慢。其实为了让算法更高效,可以 参考Platt的paper,那里有更有效的 α 选择方法。

选择了 α1α2 之后,我们要计算L和H,L和H的计算如下:
这里写图片描述

接下来我们就要去求解 α2 了。再次列出我们的优化问题是:

maxα s.t  W(α)=i=1mαi12i,j=1my(i)y(j)αiαjx(i),x(j)                 (1)0αiC, i=1,...,m                 (2)i=1mαiy(i)=0                 (3)

我们将方程(1)简化为:
W(α1,α2)=12α21y21K11+12α22y22K22+α1α2y1y2K12+α1y1v1+α2y2v2α1α2+Wconstant                 (5)

其中,
Kij=K(x(i)),x(j))vi=j=3myjαjKij=ui+by1α1K1jy2α2K2jui=i=1mαiy(i)x(i),x+b
这里,带”*”号表示的是某次迭代前的原始值,是常数。 Wconstant 也是常数。利用 α1α2 之间的关系,可以将式(5)化为只含有 α2 的式子,对其求导并让导数为0。化简最终可以得到:
α2(K11+K222K12)=α2(K11+K222K12)+y2((u1y1)(u2y2))
也就是:
α2=α2+y2(E1E2)η
其中,
Ek=uky(k)η=K11+K222K12
与之前说的一样,计算出了新的 α2 的值,要进行约束。
αnew2=H                 if α2>Hα2      if Lα2HL                if α2<L
根据 α1α2 的关系就可以计算出新的 α1

接下来是更新b的值了。b的更新有以下几种情况:
这里写图片描述

这样我们就完成了一次更新,多次迭代之后收敛到一定程度就可以了。下面是根据上面的推导完成的代码:(代码与所用的数据也放在了github上了)

# -*- coding: utf-8 -*-
from numpy import *
import operator
import time

def loadDataSet(fileName):
    dataMat = []
    labelMat = []
    with open(fileName) as fr:
        for line in fr.readlines():
            lineArr = line.strip().split()
            dataMat.append([float(lineArr[0]), float(lineArr[1])])
            labelMat.append(float(lineArr[2]))
    return dataMat, labelMat

# The first one, i , is the index of our first alpha,
# and m is the total number of alphas. A value is randomly chosen
# and returned as long as it’s not equal to the input i.
def selectJrand(i, m):
    j = i
    while (j == i):
        j = int(random.uniform(0, m))
    return j

#剪辑大于H或小于L的α值。
#sometime alpha may larger or smaller than H or L,so we have to constrain it
def clipAlpha(aj, H, L):
    if aj > H:
        aj = H
    if L > aj:
        aj = L
    return aj

def smoSimple(dataMatIn,classLabels,C,toler,maxIter):
    dataMatrix=mat(dataMatIn)
    labelMat=mat(classLabels).transpose()
    b=0
    m,n=shape(dataMatrix)
    alphas = mat(zeros((m,1)))
    iter=0
    while (iter<maxIter):
        alphaPairsChanged=0
        for i in range(m):
            fXi = float(multiply(alphas,labelMat).T*(dataMatrix*dataMatrix[i,:].T)) + b
            Ei = fXi - float(labelMat[i])
            if ((labelMat[i]*Ei < -toler) and (alphas[i] < C)) or ((labelMat[i]*Ei > toler) and (alphas[i] > 0)):
                j = selectJrand(i,m)#随便选一个
                fXj = float(multiply(alphas,labelMat).T*(dataMatrix*dataMatrix[j,:].T)) + b
                Ej = fXj - float(labelMat[j])
                alphaIold = alphas[i].copy()
                alphaJold = alphas[j].copy()
                if (labelMat[i] != labelMat[j]):
                    L = max(0, alphas[j] - alphas[i])
                    H = min(C, C + alphas[j] - alphas[i])
                else:
                    L = max(0, alphas[j] + alphas[i] - C)
                    H = min(C, alphas[j] + alphas[i])
                if L==H: print "L==H"; continue
                eta = 2.0 * dataMatrix[i,:]*dataMatrix[j,:].T -dataMatrix[i,:]*dataMatrix[i,:].T -dataMatrix[j,:]*dataMatrix[j,:].T
                if eta >= 0: print "eta>=0"; continue
                alphas[j] -= labelMat[j]*(Ei - Ej)/eta
                alphas[j] = clipAlpha(alphas[j],H,L)
                if (abs(alphas[j] - alphaJold) < 0.00001):
                    print "j not moving enough"
                    continue
                alphas[i] += labelMat[j]*labelMat[i]*(alphaJold - alphas[j])
                b1 = b - Ei- labelMat[i]*(alphas[i]-alphaIold)*dataMatrix[i,:]*dataMatrix[i,:].T -labelMat[j]*(alphas[j]-alphaJold)*dataMatrix[i,:]*dataMatrix[j,:].T
                b2 = b - Ej- labelMat[i]*(alphas[i]-alphaIold)*dataMatrix[i,:]*dataMatrix[j,:].T -labelMat[j]*(alphas[j]-alphaJold)*dataMatrix[j,:]*dataMatrix[j,:].T
                if (0 < alphas[i]) and (C > alphas[i]): b = b1
                elif (0 < alphas[j]) and (C > alphas[j]): b = b2
                else: b = (b1 + b2)/2.0
                alphaPairsChanged += 1
                print "iter: %d i:%d, pairs changed %d" % (iter,i,alphaPairsChanged)
        if (alphaPairsChanged == 0): iter += 1
        else: iter = 0
        print "iteration number: %d" % iter
    return b,alphas

参考文献:
斯坦福机器学习课程之svm
斯坦福机器学习课程之smo
Sequential Minimal Optimization: A Fast Algorithm for Training Support Vector Machines
An introduction to Support Vector Machines(SVM)
支持向量机系列
机器学习算法与Python实践之(二)支持向量机(SVM)初级
支持向量机通俗导论(理解SVM的三层境界)
支持向量机(五)SMO算法
【整理】深入理解拉格朗日乘子法(Lagrange Multiplier) 和KKT条件

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值