前言
最近看了Andrew Ng的机器学习视频中的支持向量机,视频的内容比较浅显,没有深入解释支持向量机中的数学原理。但是对于一个比较执着于知道为什么的人,笔者还是去网上查找了有关支持向量机原理以及实现的相关资料。在查找的过程中,笔者发现支持向量机的内容还是蛮多的,于是笔者根据自己的理解,并且参考了一些相关资料,最终写下了支持向量机的四篇博客。
机器学习:支持向量机(SVM)与Python实现第(一)篇——此篇主要介绍了分类间隔,引入SVM。
机器学习:支持向量机(SVM)与Python实现第(二)篇——此篇主要介绍了使用拉格朗日乘子来简化SVM问题的优化。
机器学习:支持向量机(SVM)与Python实现第(三)篇——此篇主要介绍非线性分类(核函数)以及松弛变量。
机器学习:支持向量机(SVM)与Python实现第(四)篇——此篇主要介绍SMO算法并用python实现了简单的SVM分类器。
前面讲了这么多,终于要用Python来真正实现SVM训练数据集了!在这里,我们使用的是SMO(swquential minimal optimization)算法,一种高效的解决SVM中的对偶问题的方法。
在我们介绍SMO算法之前,我们先来了解一下另外一个算法,它是SMO算法基础。这个算法就是坐标上升(下降)算法。
坐标上升算法(coordinate ascent)
假如我们现在要来解决下面这个无限制的优化问题:
在内层循环中,我们每一次都只优化一个 αi ,对于其他的参数,都保持不变。上面的示例中,优化是按照 α1,α2,...,αm 的顺序进行优化的,事实上,我们也可以选择那个能使W增加最快的 α 。下面这张图是对这个算法的直观理解:
图中显示的是一个二维的情况,每一次都会选择一个方向进行优化,而不是像梯度下降去找下降最快的方向。其实它相当于把梯度下降分成两步来做。
SMO
现在我们回到我们的SMO算法上来,我们上一篇博文最后得到了下面的优化问题:
显然没有。原因在于方程(3)是限制条件,一旦 α2,...,αm 都确定了,那么 α1 也就确定了,所以这样是优化不了的。因此,如果我们想使用坐标上升算法,我们应该每次优化两个参数变量。这就是SMO算法:
一般来说,为了判断是否收敛了,可以检查KKT条件是否收敛到了一定程度,我们可以用一个收敛参数来判断,一般来说这个参数的值在0.001到0.01之间。
接下来我们就来看看这个算法最主要的过程。首先我们选择了两个参数
α1和α2
(其他的参数固定不变),根据方程(3)我们可以得到:
方程(4)其实就是二维平面上的一条直线,我们可以画出图像:
从不等式(2)我们可以知道 α1和α2 都是大于0,小于C的。所以它们的取值范围是在这个矩形范围内。同时,它们又满足方程(4)的条件,所以是在这条直线上。在这种限制下,其实 α2 的取值范围就为 L≤α2≤H 。在上图这个例子中,L=0。通过方程(4),我们也可以用 α2 来表示 α1 :
根据方程(1)的形式,而且现在变量只有 α2 ,你可以发现现在 W(α) 是关于 α2 的二次函数(即可以写成 W=aα22+bα2+c 的形式)。如果我们不去考虑上面说的限制(即 L≤α2≤H ),那么我们可以轻易地算出最大值,只需要对其求导并让导数为0解出 α2 即可。假设我们现在解出了 α2 的结果为 αnew,unclipped2 ,将限制条件考虑进来,我们就可以得到:
选择了
α1和α2
之后,我们要计算L和H,L和H的计算如下:
接下来我们就要去求解
α2
了。再次列出我们的优化问题是:
我们将方程(1)简化为:
其中,
接下来是更新b的值了。b的更新有以下几种情况:
这样我们就完成了一次更新,多次迭代之后收敛到一定程度就可以了。下面是根据上面的推导完成的代码:(代码与所用的数据也放在了github上了)
# -*- coding: utf-8 -*-
from numpy import *
import operator
import time
def loadDataSet(fileName):
dataMat = []
labelMat = []
with open(fileName) as fr:
for line in fr.readlines():
lineArr = line.strip().split()
dataMat.append([float(lineArr[0]), float(lineArr[1])])
labelMat.append(float(lineArr[2]))
return dataMat, labelMat
# The first one, i , is the index of our first alpha,
# and m is the total number of alphas. A value is randomly chosen
# and returned as long as it’s not equal to the input i.
def selectJrand(i, m):
j = i
while (j == i):
j = int(random.uniform(0, m))
return j
#剪辑大于H或小于L的α值。
#sometime alpha may larger or smaller than H or L,so we have to constrain it
def clipAlpha(aj, H, L):
if aj > H:
aj = H
if L > aj:
aj = L
return aj
def smoSimple(dataMatIn,classLabels,C,toler,maxIter):
dataMatrix=mat(dataMatIn)
labelMat=mat(classLabels).transpose()
b=0
m,n=shape(dataMatrix)
alphas = mat(zeros((m,1)))
iter=0
while (iter<maxIter):
alphaPairsChanged=0
for i in range(m):
fXi = float(multiply(alphas,labelMat).T*(dataMatrix*dataMatrix[i,:].T)) + b
Ei = fXi - float(labelMat[i])
if ((labelMat[i]*Ei < -toler) and (alphas[i] < C)) or ((labelMat[i]*Ei > toler) and (alphas[i] > 0)):
j = selectJrand(i,m)#随便选一个
fXj = float(multiply(alphas,labelMat).T*(dataMatrix*dataMatrix[j,:].T)) + b
Ej = fXj - float(labelMat[j])
alphaIold = alphas[i].copy()
alphaJold = alphas[j].copy()
if (labelMat[i] != labelMat[j]):
L = max(0, alphas[j] - alphas[i])
H = min(C, C + alphas[j] - alphas[i])
else:
L = max(0, alphas[j] + alphas[i] - C)
H = min(C, alphas[j] + alphas[i])
if L==H: print "L==H"; continue
eta = 2.0 * dataMatrix[i,:]*dataMatrix[j,:].T -dataMatrix[i,:]*dataMatrix[i,:].T -dataMatrix[j,:]*dataMatrix[j,:].T
if eta >= 0: print "eta>=0"; continue
alphas[j] -= labelMat[j]*(Ei - Ej)/eta
alphas[j] = clipAlpha(alphas[j],H,L)
if (abs(alphas[j] - alphaJold) < 0.00001):
print "j not moving enough"
continue
alphas[i] += labelMat[j]*labelMat[i]*(alphaJold - alphas[j])
b1 = b - Ei- labelMat[i]*(alphas[i]-alphaIold)*dataMatrix[i,:]*dataMatrix[i,:].T -labelMat[j]*(alphas[j]-alphaJold)*dataMatrix[i,:]*dataMatrix[j,:].T
b2 = b - Ej- labelMat[i]*(alphas[i]-alphaIold)*dataMatrix[i,:]*dataMatrix[j,:].T -labelMat[j]*(alphas[j]-alphaJold)*dataMatrix[j,:]*dataMatrix[j,:].T
if (0 < alphas[i]) and (C > alphas[i]): b = b1
elif (0 < alphas[j]) and (C > alphas[j]): b = b2
else: b = (b1 + b2)/2.0
alphaPairsChanged += 1
print "iter: %d i:%d, pairs changed %d" % (iter,i,alphaPairsChanged)
if (alphaPairsChanged == 0): iter += 1
else: iter = 0
print "iteration number: %d" % iter
return b,alphas
参考文献:
斯坦福机器学习课程之svm
斯坦福机器学习课程之smo
Sequential Minimal Optimization: A Fast Algorithm for Training Support Vector Machines
An introduction to Support Vector Machines(SVM)
支持向量机系列
机器学习算法与Python实践之(二)支持向量机(SVM)初级
支持向量机通俗导论(理解SVM的三层境界)
支持向量机(五)SMO算法
【整理】深入理解拉格朗日乘子法(Lagrange Multiplier) 和KKT条件