1. 软间隔到损失函数的推导
线性可分SVM中认定:存在一个超平面可将不同类的样本完全分开。
现实任务中很难确定合适的核函数使得训练样本在特征空间线性可分。即使恰好找到某个核函数使得训练集在特征空间中线性可分,也很难断定这个貌似线性可分的结果不是由于过拟合造成的。
缓解办法就是:软间隔,即允许某些样本不满足约束:
当然最大化间隔的同时,不满足约束的样本尽可能少,优化目标可写为:
C是常数,l 是0-1损失函数:
括号内的乘积值小于1时,代表不满足约束,则损失计1,错一个就计算一个。
l 非凸,非连续,不易求解。通常用其他一些函数来代替 l ,称为替代损失,替代损失函数通常是凸的连续函数,且是 l 的上界。
2. 三种损失函数
通常有以下三种常用的替代损失函数:
- hinge(合页/折页)损失:l(z) = max(0, 1 - z)
- 指数(exponential)损失:l(z) = exp(-z)
- 对率损失:l(z) = log( 1 + exp(-z) )
3. 合页损失函数
采用合页损失函数时,下式
变成:
令 max(0,1−yi(wTxi+b))=ξi</