SVM算法(六)SVM算法的正则化损失函数视角

一、用“损失函数+正则项”理解SVM最优化目标

近似线性可分问题所述,SVM算法的目标是求得如下目标函数的最小值: min ⁡ 1 2 w 2 + C ∑ i = 1 n ξ i s . t .    y i ( w x i + b ) ≥ 1 − ξ i ξ i ≥ 0 \begin{aligned}&\min\frac{1}{2}w^2+C\sum\limits_{i=1}^n \xi_i \\&s.t.\space \space y_i(wx_i+b)\ge1-\xi_i\\ &\qquad \xi_i \ge0\end{aligned} min21w2+Ci=1nξis.t.  yi(wxi+b)1ξiξi0根据拉格朗日广义函数对偶问题的分析, α i \alpha_i αi共有如下三种取值情况:
1) α i = C \alpha_i=C αi=C,由对偶互补条件有 ξ i = 1 − y i ( w x i + b ) \xi_i=1-y_i(wx_i+b) ξi=1yi(wxi+b)
2) α i = 0 \alpha_i=0 αi=0,由对偶互补条件有 ξ i = 0 \xi_i=0 ξi=0
3) 0 < α i < C 0<\alpha_i<C 0<αi<C,对应于支持向量边界上的点,显然 ξ i = 0 \xi_i=0 ξi=0
所以,上述最优化问题可写成: min ⁡ 1 2 w 2 + C ∑ i = 1 n max ⁡ ( 0 , 1 − y i ( w x i + b ) ) \min\frac{1}{2}w^2+C\sum_{i=1}^n\max(0, 1-y_i(wx_i+b)) min21w2+Ci=1nmax(0,1yi(wxi+b))或进一步可写成: min ⁡ 1 2 C w 2 + ∑ i = 1 n max ⁡ ( 0 , 1 − y i ( w x i + b ) ) \min\frac{1}{2C}w^2+\sum_{i=1}^n\max(0, 1-y_i(wx_i+b)) min2C1w2+i=1nmax(0,1yi(wxi+b))该公式可以理解为某个损失函数 max ⁡ ( 0 , 1 − y i ( w x i + b ) ) \max(0, 1-y_i(wx_i+b)) max(0,1yi(wxi+b)) L 2 L2 L2正则项的和作为目标函数,惩罚项 λ = 1 2 C \lambda=\frac{1}{2C} λ=2C1
也就是说,SVM的目标可以理解为最小化 L 2 L2 L2正则化下的损失函数 max ⁡ ( 0 , 1 − y i ( w x i + b ) ) \max(0, 1-y_i(wx_i+b)) max(0,1yi(wxi+b)),这个损失函数称为合页损失函数(Hinge Loss)。

二、合页损失函数

SVM的损失函数为合页损失函数: max ⁡ ( 0 , 1 − y ( w x + b ) ) \max(0, 1-y(wx+b)) max(0,1y(wx+b))该损失和0-1损失、log损失(以2为底)、平方损失等常见损失的对比见下图。
在这里插入图片描述
在分类问题中,0-1损失是最容易想到的损失函数(判断错统一惩罚1,不管错的多离谱),而上图中的其它损失函数都是0-1损失的上界。

对于合页损失,其对判断正确和错误处的惩罚力度均进行了调整:1)不光要判断正确,而且函数距离必须大于1(可以理解为正确的可信度高,即margin=1)才无须惩罚;2)对于判断错误,或者虽然判断正确但可信度不高的值,均进行惩罚,且错的越多,惩罚力度随之线性增加。

三、参数C的意义

在前文的推广中,将参数 C C C定义为对间隔进行松弛 ξ \xi ξ时的惩罚项。当 C C C越大时,越不允许有过大的 ξ \xi ξ,因此分割平面必须越能正确的区分每个数据点,所以分割平面越复杂,越可能导致过拟合。
在这里插入图片描述
从正则化损失函数的角度来思考,因为 L 2 L2 L2正则化前的系数 λ = 1 2 C \lambda=\frac{1}{2C} λ=2C1 C C C越大意味着 λ \lambda λ越小,对假设空间复杂度的约束越小,边界也就越复杂。这与上面的结论相一致。

四、线性模型 L 2 L2 L2正则化的泛化

回到SVM的正则化损失函数表达形式: min ⁡ 1 2 C w 2 + ∑ i = 1 n max ⁡ ( 0 , 1 − y i ( w x i + b ) ) \min\frac{1}{2C}w^2+\sum_{i=1}^n\max(0, 1-y_i(wx_i+b)) min2C1w2+i=1nmax(0,1yi(wxi+b))与之类似的,还有添加 L 2 L2 L2正则项之后的逻辑损失问题和线性回归问题: min ⁡ λ w 2 + ∑ i = 1 n y i σ ( x i ) + ( 1 − y i ) ( 1 − σ ( x i ) ) min ⁡ λ w 2 + ∑ i = 1 n ( y i − w x i − b ) 2 \begin{aligned} &\min \lambda w^2+\sum_{i=1}^ny_i\sigma(x_i)+(1-y_i)(1-\sigma(x_i))\\&\min\lambda w^2+\sum_{i=1}^n(y_i-wx_i-b)^2\end{aligned} minλw2+i=1nyiσ(xi)+(1yi)(1σ(xi))minλw2+i=1n(yiwxib)2不难得到在线性模型基础上,进行 L 2 L2 L2正则化的泛化表达形式: min ⁡ λ w 2 + ∑ i = 1 n e r r ( y i , g ( w x i ) ) \min \lambda w^2+\sum_{i=1}^nerr(y_i,g(wx_i)) minλw2+i=1nerr(yi,g(wxi))式中 g ( w x ) g(wx) g(wx)表示线性模型。
通过这种泛化,我们可以通过调整损失函数以适应不同的问题,还可以将SVM中核技巧推广到其它的线性模型。这也是后文介绍SVM概率模型和SVM回归模型的基础。

  • 1
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值