1.软间隔(soft margin)
前面说的硬间隔(hard margin)要求将所有的样本数据全部正确分类,这在实际应用中很难做到,即使做到了也可能是由于过拟合而造成的。
1)为了解决这样的问题,我们引入软间隔(soft margin),它允许在一定的范围内出现错误的样本点。
如图:黑线能将所有的样本分开,即硬间隔(hard margin),在此基础在我们将该线向上,向下平移,允许由少部分的样本的进入间隔内,得到红线即我们所要的软间隔(soft margin)。
优点:可以增强模型的泛化能力,因为进入分界线内部的点大多都是临近直线的点,而边界上的点最容易受噪音的影响,换句话说这些点是噪音数据的可能性最大,会影响我们模型的构建。
2)这样我们通过软间隔得到的线性方程为:
w.T*x + b = 1
假设能将所有样本点正确划分的线性方程是:
w.T*x + b = 1-ξ,ξ⩾0
那么所有的样本的范围为:
yi*(w.T*xi + b) ⩾ 1-ξi
i=1,2,...m
3)松弛变量
由于软间隔(soft margin),允许在一定的范围内出现错误的样本点,即需要我们对样本有一定的容忍性,宽容性。但使用0/1损失函数,其数学性质不好(非连续不能求导)。于是引入 ”松弛变量 “ ξi ⩾ 0;
以及C(惩罚因子)对宽容行为的惩罚力度:当C很大时,ξ必须小,C趋近于无穷时,ξ为0,即硬间隔;当C小时,ξ大点没关系;
则原问题表示为:
min 1/2*||ω||**2 + C∑ξi
s.t. yi*(w.T*xi+b) ⩾ 1-ξi,
ξi⩾0,i=1,2,...m
2.对偶问题
1)将原问题转换为对偶问题:对每一个约束条件引入对应的拉格朗日乘子,由于上述约束条件有两类,所以引入两个拉格朗日乘子ai,μi(共2m个)
则对偶问题表示为:
min 1/2*||ω||**2 + C∑Nξi + ∑ai(1 - ξi - yi(w.T*xi+b) ) - ∑μiξi
具体过程:
2)KKT条件: