一、SVM原问题及要变成对偶问题的原因
对于SVM的,我们知道其最终目的是求取一分类超平面,然后将新的数据带入这一分类超平面的方程中,判断输出结果的符号,从而判断新的数据的正负。而求解svm分类器模型,最终可以化成如下的最优化问题:
minw,bs.t.12∥w∥21−yi(w⋅xi+b)≤0i=1,2,...,N
上式中,
yi
对应样本
xi
的标签。
我们的目的是求出上述最优化问题的最优解, w∗ 和 b∗ ,从而得到分类超平面:
w∗⋅x+b∗=0
进而得到分类决策函
f(x)=sign(w∗⋅x+b)
但是在求解这一最优化问题时,求解较为困难,且对于线性不可分的数据无法得到较好的分类超平面,因此根据拉格朗日对偶性,引进原最优化问题的对偶问题,通过求解对偶问题得到原始问题的最优解。
对偶问题的引进有两个方面,一是对偶问题的求解往往比原问题容易,二是对于线性不可分的数据可以通过加松弛变量、加核函数的方法,将其推广到非线性分类。
二、原始SVM的对偶问题及其求解
原始的SVM模型的原问题如下:
minw,bs.t.12∥w∥21−yi(w⋅xi+b)≤0i=1,2,...,N
为方便计算,将范数形式改写成如下形式:
minw,bs.t.12wTw1−yi(w⋅xi+b)≤0i=1,2,...,N
要想求原始问题的对偶问题,首先构造拉格朗日函数入如下:
L(w,b,λ)=12wTw+∑i=1Nλi[1−yi(wTxi+b)]λi≥0,i=1,2,...,N
上式中的
λi
是拉格朗日乘子。
观察上述式子,可发现
λi[1−yi(wTxi+b)]≤0
所以 L(w,b,λ)≤12wTw ,即构造的拉格朗日函数是原问题的一个下界。
根据拉格朗日对偶性,原始问题的的对偶问题是极大化极小问题:
maxλminw,bL(w,b,λ)
上式所表达的意思是,先求
L(w,b,λ)
对
w,b
的极小,再求对
λ
的极大。
首先,求 minw,bL(w,b,λ) :
我们知道,对于一阶可导函数,其在导数值为0的地方,取到极大或极小值,对于我们构造的拉格朗日函数,其偏导导数为0的点,一定是极小值。故:
0=∂∂wL(w,b,λ)=w+∑i=1Nλi(−yixi)⇒w=∑i=1Nλiyixi0=∂∂bL(w,b,λ)=−∑i=1Nλiyi⇒