参考周老师《机器学习》
在前面两章里,我们都是假设样本在原始空间或者高维空间里线性可分,并且我们提到核函数的选择成为SVM的关键。即使我们找到了合适的核函数,也难断定是否是因过拟合造成的。
引入软间隔,允许一些样本不满足约束条件。在前面两章所介绍的都是硬间隔,即所有样本都必须满足约束条件。
优化目标为:
min12||w||2+C∑ni=1l0/1(yi(wTxi+b)−1) min 1 2 | | w | | 2 + C ∑ i = 1 n l 0 / 1 ( y i ( w T x i + b ) − 1 )
其中 C>0 C > 0 是一个常数, l0/1 l 0 / 1 是”0-1损失函数“。
- z<0 z < 0 , l0/1(z)=1 l 0 / 1 ( z ) = 1
- z≥0,l0/1=0 z ≥ 0 , l 0 / 1 = 0
然而 l0/1 l 0 / 1 是非凸、非连续的,因此需要一些“替代损失”,它们是凸的连续的且是 l0/1 l 0 / 1 的上界。比如:hinge损失、指数损失、对率损失
用hinge损失代替优化目标里的0-1损失:
min12||w||2+C∑ni=1max(0,−(yi(w