(《机器学习》完整版系列)第6章 支持向量机SVM——6.3 何为松驰变量(当搜寻范围扩大时,可能会找到更高的山、更低的谷)

松驰变量的理解是难点之一,也是很有意思的内容。

松驰变量

我们先描述一个事实:当搜寻范围扩大时,可能会找到更高的山、更低的谷,即
若  A ⊆ B ,  则  {   max ⁡ x ∈ A f ( x ) ⩽ max ⁡ x ∈ B f ( x )   min ⁡ x ∈ A f ( x ) ⩾ min ⁡ x ∈ B f ( x ) \begin{align} \text{若}\ A\subseteq B,\ \text{则}\ \begin{cases} \,\mathop{\max}\limits_{\boldsymbol{x}\in A}f(\boldsymbol{x})\leqslant \mathop{\max}\limits_{\boldsymbol{x}\in B}f(\boldsymbol{x}) \\ \,\mathop{\min}\limits_{\boldsymbol{x}\in A}f(\boldsymbol{x})\geqslant \mathop{\min}\limits_{\boldsymbol{x}\in B}f(\boldsymbol{x}) \\ \end{cases} \tag{6.16} \end{align}  AB,   xAmaxf(x)xBmaxf(x)xAminf(x)xBminf(x)(6.16)

1 − y i ( w T x i + b ) < 0 1-y_i(\boldsymbol{w}^\mathrm{T}\boldsymbol{x}_i+b)<0 1yi(wTxi+b)<0 i i i形成下标集 D − D_- D 1 − y i ( w T x i + b ) ⩾ 0 1-y_i(\boldsymbol{w}^\mathrm{T}\boldsymbol{x}_i+b)\geqslant 0 1yi(wTxi+b)0 i i i形成下标集 D + D_+ D+,再作于关于点 ( w , b , ξ ) (\boldsymbol{w},b,\boldsymbol{\xi} ) (w,b,ξ)的集合: A = { ( w , b , ξ ) :   ξ i = 1 − y i ( w T x i + b ) , ξ i ⩾ 0 } A=\{(\boldsymbol{w},b,\boldsymbol{\xi} ):\, \xi _i=1-y_i(\boldsymbol{w}^\mathrm{T}\boldsymbol{x}_i+b),\xi _i\geqslant 0\} A={(w,b,ξ):ξi=1yi(wTxi+b),ξi0} B = { ( w , b , ξ ) :   ξ i ⩾ 1 − y i ( w T x i + b ) , ξ i ⩾ 0 } B=\{(\boldsymbol{w},b,\boldsymbol{\xi} ):\, \xi _i\geqslant 1-y_i(\boldsymbol{w}^\mathrm{T}\boldsymbol{x}_i+b),\xi _i\geqslant 0\} B={(w,b,ξ):ξi1yi(wTxi+b),ξi0}(这里的“ ⩾ \geqslant ”也可以全都换成“ ⩽ \leqslant ”),则有: A ⊆ B A\subseteq B AB

再在我们对优化目标【西瓜书式(6.34)】进行变换:
  min ⁡ w , b 1 2 ∣ ∣ w ∣ ∣ 2 + C ∑ i = 1 m max ⁡ ( 0 , 1 − y i ( w T x i + b ) ) = min ⁡ w , b 1 2 ∣ ∣ w ∣ ∣ 2 + C ∑ i ∈ D + ⋃ D − max ⁡ ( 0 , 1 − y i ( w T x i + b ) ) = min ⁡ w , b   1 2 ∣ ∣ w ∣ ∣ 2 + C ( ∑ i ∈ D + ( 1 − y i ( w T x i + b ) ) + ∑ i ∈ D − 0 ) = min ⁡ w , b   1 2 ∣ ∣ w ∣ ∣ 2 + C ∑ i ( 1 − y i ( w T x i + b ) ) , s . t . i ∈ D + = min ⁡ w , b   1 2 ∣ ∣ w ∣ ∣ 2 + C ∑ i ( 1 − y i ( w T x i + b ) ) s . t . 1 − y i ( w T x i + b ) ⩾ 0 = min ⁡ w , b , ξ   1 2 ∣ ∣ w ∣ ∣ 2 + C ∑ i ξ i s . t . ξ i = 1 − y i ( w T x i + b ) ,   ξ i ⩾ 0 = min ⁡ w , b , ξ   1 2 ∣ ∣ w ∣ ∣ 2 + C ∑ i ξ i s . t . ( w , b , ξ ) ∈ A ⩾ min ⁡ w , b , ξ   1 2 ∣ ∣ w ∣ ∣ 2 + C ∑ i ξ i s . t . ( w , b , ξ ) ∈ B (由式(6.16)) \begin{align} & \ \mathop{\min}\limits_{\boldsymbol{w},b}\frac{1}{2}||\boldsymbol{w}||^2+C\sum_{i=1}^m \max (0,1-y_i(\boldsymbol{w}^\mathrm{T}\boldsymbol{x}_i+b))\notag \\ & =\mathop{\min}\limits_{\boldsymbol{w},b} \frac{1}{2}||\boldsymbol{w}||^2+C\sum_{i\in D_+\bigcup D_-} \max (0,1-y_i(\boldsymbol{w}^\mathrm{T}\boldsymbol{x}_i+b))\notag \\ & =\mathop{\min}\limits_{\boldsymbol{w},b}\ \frac{1}{2}||\boldsymbol{w}||^2+C\left(\sum_{i\in D_+} (1-y_i(\boldsymbol{w}^\mathrm{T}\boldsymbol{x}_i+b))+\sum_{i\in D_-} 0\right)\notag \\ & =\mathop{\min}\limits_{\boldsymbol{w},b}\ \frac{1}{2}||\boldsymbol{w}||^2+C\sum_{i} (1-y_i(\boldsymbol{w}^\mathrm{T}\boldsymbol{x}_i+b)),\quad \mathrm{s.t.} \quad {i\in D_+}\notag \\ & =\mathop{\min}\limits_{\boldsymbol{w},b}\ \frac{1}{2}||\boldsymbol{w}||^2+C\sum_{i} (1-y_i(\boldsymbol{w}^\mathrm{T}\boldsymbol{x}_i+b))\notag \\ & \qquad \qquad \qquad \mathrm{s.t.} \quad 1-y_i(\boldsymbol{w}^\mathrm{T}\boldsymbol{x}_i+b)\geqslant 0\notag \\ & =\mathop{\min}\limits_{\boldsymbol{w},b,\boldsymbol{\xi}}\ \frac{1}{2}||\boldsymbol{w}||^2+C\sum_{i} \xi _i\notag \\ & \qquad \qquad \qquad \mathrm{s.t.} \quad \xi _i=1-y_i(\boldsymbol{w}^\mathrm{T}\boldsymbol{x}_i+b),\ \xi _i\geqslant 0\notag \\ & =\mathop{\min}\limits_{\boldsymbol{w},b,\boldsymbol{\xi}}\ \frac{1}{2}||\boldsymbol{w}||^2+C\sum_{i} \xi _i\notag \\ & \qquad \qquad \qquad \mathrm{s.t.} \quad (\boldsymbol{w},b,\boldsymbol{\xi}) \in A\notag \\ & \geqslant \mathop{\min}\limits_{\boldsymbol{w},b,\boldsymbol{\xi}}\ \frac{1}{2}||\boldsymbol{w}||^2+C\sum_{i} \xi _i\notag \\ & \qquad \qquad \qquad \mathrm{s.t.} \quad (\boldsymbol{w},b,\boldsymbol{\xi}) \in B \quad \text{(由式(6.16))} \tag{6.17} \end{align}  w,bmin21∣∣w2+Ci=1mmax(0,1yi(wTxi+b))=w,bmin21∣∣w2+CiD+Dmax(0,1yi(wTxi+b))=w,bmin 21∣∣w2+C iD+(1yi(wTxi+b))+iD0 =w,bmin 21∣∣w2+Ci(1yi(wTxi+b)),s.t.iD+=w,bmin 21∣∣w2+Ci(1yi(wTxi+b))s.t.1yi(wTxi+b)0=w,b,ξmin 21∣∣w2+Ciξis.t.ξi=1yi(wTxi+b), ξi0=w,b,ξmin 21∣∣w2+Ciξis.t.(w,b,ξ)Aw,b,ξmin 21∣∣w2+Ciξis.t.(w,b,ξ)B(由式(6.16)(6.17)
这即为【西瓜书式(6.35)】,由此将无约束的目标【西瓜书式(6.34)】,变为有约束的目标【西瓜书式(6.35)】,
此时,约束变量 ξ i {\xi }_i ξi为自变量,称为“松驰变量”,它为一组 ξ \boldsymbol{\xi } ξ

本文为原创,您可以:

  • 点赞(支持博主)
  • 收藏(待以后看)
  • 转发(他考研或学习,正需要)
  • 评论(或讨论)
  • 引用(支持原创)
  • 不侵权

上一篇:6.2 核函数型支持向量机SVM(方法:比较基本型来学习)
下一篇:6.4 软间隔与正则化、支持向量回归

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值