前提
在实际的应用中,训练样本在样本空间或者特征空间中可能很难找到一个合适的核函数使得训练样本在特征空间中线性可分。即使找到了一个合适的核函数使得样本在样本空间中线性可分,我们也无法判断这个结果是不是由于过拟合造成的。
软间隔
硬间隔
所谓硬间隔就是非黑即白,即所有样本都必须划分正确。
软间隔概念
相比于硬间隔,软间隔允许存在灰色地带,也就是允许某些样本不满足约束条件:
yi(wTxi+b)≥1.
不过在最大间隔化的同时要求,不满足约束的样本数应该尽可能地少。
于是优化目标函数:
minw,b12||w||2+C∑i=1mℓfunction(yi(wTxi+b)−1)
其中 C>0 是一个常数,
当 C→+∞ 则目标函数迫使所有样本都满足约束条件。
当 C=constant 则目标函数允许一部分地样本不满足约束条件。
ℓfunction 被称为替代损失函数:
常用的替代损失函数
0/1 损失函数:
ℓ0/1(z)={10,if z<0;,otherwise.
hinge损失:
ℓhinge(z)=max(0,1−z)
指数损失(exponetial loss):
ℓexp(z)=exp(−z)
对率损失(logistic loss):
ℓlog(z)=log(1+exp(−z))
松弛变量和软间隔支持向量机
引入松弛变量
εi≥0
,于是优化目标函数可以写成:
minw,b,εi12||w||2+C∑i=1mεis.t. yi(wTxi+b)≥1−εiεi≥0
上式就是软间隔支持向量机
上式中每一个样本都有一个对于的松弛变量,以表征该样本不满足约束的程度。
软间隔支持向量机
使用拉格朗日乘子法:
L(w,b,α,ε,μ)=minw,b,εi12||w||2+C∑i=1mεi+∑i=1mαi(1−εi−yi(wTxi+b))−∑i=1mμiεi
其中: αi≥0,μi≥0 式拉格朗日乘子。
令 L(w,b,α,ε,μ) 对 w,b,εi
偏导为零。
w=∑i=1mαiyixi0=∑i=1mαiyiC=αi+μi
同时得到对偶问题:
maxαs.t.∑i=1mαi−12∑i=1m∑j=1mαiyiαjyjxTixj∑i=1mαiyi=0,0≤αi≤C,i=1,2,…,m.