[吃瓜教程]南瓜书第6章软间隔与支持向量回归

1.软间隔支持向量机的模型

之前讨论的支持向量机的一个重要的假设前提是它的数据集是线性可分的。然而在现实任务中,线性不可分的情形才是最常见的,因此需要允许支持向量机犯错。这就是接下来要说的软间隔的支持向量机。

2.软间隔支持向量机的策略

从数学角度来说,软间隔就是允许部分样本(但是要尽可能的少)不满足下式中的约束条件
min ⁡ w , b 1 2 ∣ ∣ w ∣ ∣ 2 s ⁡ . t .    y i ( w T x i + b ) ≥ 1 ,   i = 1 , 2 , . . . , m \begin{align*} &\min_{w,b} \frac12||w||^2 \\ &\operatorname s.t. \space \space y_i(w^Tx_i+b) \geq 1,\space i=1,2,...,m \end{align*} w,bmin21∣∣w2s.t.  yi(wTxi+b)1, i=1,2,...,m
考虑损失函数,因为我们知道损失函数是有一定的灵活性的,损失函数的值不可能总是0,这就体现了一定的软间隔的意味,因此我们应该定义以下一个损失函数:

  • 当满足约束条件时,损失为0;
  • 当不满足约束条件时,损失不为0;
  • (可选)当不满足约束条件时,损失与其违反约束条件的程度成正比;
    只有满足以上要求,才能实现我们的设想:尽可能少的不满足约束条件的样本的同时,损失最小化。
    接下来我们就基于支持向量机得到了软间隔支持向量机的损害函数:
    min ⁡ w , b 1 2 ∣ ∣ w ∣ ∣ 2 + C ∑ i = 1 m l 0 / 1 ( y i ( w T x i + b ) − 1 ) \min_{w,b} \frac12||w||^2 +C\sum^m_{i=1}l_{0/1}(y_i(w^Tx_i+b)-1) w,bmin21∣∣w2+Ci=1ml0/1(yi(wTxi+b)1)
    其中, l 0 / 1 l_{0/1} l0/1是0/1损失函数
    l 0 / 1 ( z ) = { 1 z < 0 0 z ≥ 0 l_{0/1}(z)= \begin{cases} 1\hspace{5mm}&z<0\\ 0 & z\geq0 \end{cases} l0/1(z)={10z<0z0
    C>0是一个常数,用来调节损失的权重,显然当C → + ∞ \rightarrow +\infty +时,会迫使所有样本的损失为0(因为你要最小化上面的式子),进而退化为严格执行的约束条件,退化为硬间隔,因此,本式子可以看作支持向量机的一般化形式。
    进一步的,由于 l 0 / 1 l_{0/1} l0/1非凸、非连续,数学性质不好,使得上式不易求解,因此常用一些数学性质较好的替代函数来替换这个函数。软间隔支持向量机通常采用的是hinge(合页)损失来替代:
    l h i n g e ( z ) = max ⁡ ( 0 , 1 − z ) l_{hinge}(z)=\max(0,1-z) lhinge(z)=max(0,1z)
    在这里插入图片描述

进一步得到替换后软间隔支持向量机的损失函数:
min ⁡ w , b 1 2 ∣ ∣ w ∣ ∣ 2 + C ∑ i = 1 m max ⁡ ( 0 , 1 − y i ( w T x i + b ) \min_{w,b}\frac12||w||^2+C\sum^m_{i=1}\max(0,1-y_i(w^Tx_i+b) w,bmin21∣∣w2+Ci=1mmax(0,1yi(wTxi+b)
可以看到合页函数还满足第三个条件。
在确定了软间隔支持向量机的损失函数后,我们还可以进一步转换,将其从损失函数的形式再写回优化问题的形式。
我们引入一个松弛变量 ξ i \xi_i ξi,上述优化问题便和下述优化问题等价
min ⁡ w , b , ξ i   1 2 ∣ ∣ w ∣ ∣ 2 + C ∑ i = 1 m ξ i s ⁡ . t .    y i ( w T x i + b ) ≥ 1 − ξ i ξ i ≥ 0 , i = 1 , 2 , . . . , m \begin{align*} &\min_{w,b,\xi_i}\space \frac12||w||^2+C\sum^m_{i=1}\xi_i \\ &\operatorname s.t. \space \space y_i(w^Tx_i+b) \geq 1-\xi_i \\ &\hspace{8mm} \xi_i \geq0 , i=1,2,...,m \end{align*} w,b,ξimin 21∣∣w2+Ci=1mξis.t.  yi(wTxi+b)1ξiξi0,i=1,2,...,m
我们会发现这个优化问题的这个松弛变量 ξ i \xi_i ξi可以较为直观的体现软间隔。

3.支持向量回归

支持向量回归(SVR)用一个以 f ( x ) = w T x + b f(x)=w^Tx+b f(x)=wTx+b为中心,宽度为 2 ϵ 2\epsilon 2ϵ的间隔带来拟合训练样本。落在带上的样本不计算损失,不在带上的计算损失,然后最小化损失使得间隔带从样本最密集的地方穿过,达到拟合训练样本的目的。
在这里插入图片描述
SVR的损失函数可以写为
min ⁡ w , b 1 2 ∣ ∣ w ∣ ∣ 2 + C ∑ i = 1 m l ϵ ( f ( x i ) − y i ) \min_{w,b}\frac12||w||^2+C\sum^m_{i=1}l_\epsilon(f(x_i)-y_i) w,bmin21∣∣w2+Ci=1mlϵ(f(xi)yi)
其中,
(1) l ϵ ( z ) l_\epsilon(z) lϵ(z)为“ ϵ \epsilon ϵ不敏感损失函数"(类比均方误差损失)
l ϵ ( z ) = { 0 i f ∣ z ∣ ≤ ϵ ∣ z ∣ − ϵ i f ∣ z ∣ > ϵ l_\epsilon(z)= \begin{cases} 0\hspace{5mm}&if |z|\leq\epsilon\\ |z|-\epsilon & if |z|>\epsilon \end{cases} lϵ(z)={0zϵifzϵifz>ϵ
(2) 1 2 ∣ ∣ w ∣ ∣ 2 \frac12||w||^2 21∣∣w2为L2正则项,此处引入正则项除了起到正则化的作用外,也是为了和(软间隔)支持向量机的优化目标保持形式上的一致,这样就可以导出对偶问题引入核函数。
(3)C为调节损失权重的常数。

同样的,和软间隔支持向量机类似,我们将损失函数写为优化问题的形式:
引入松弛变量,令
l ϵ ( f ( x i ) − y i ) = ξ i l_\epsilon(f(x_i)-y_i)=\xi_i lϵ(f(xi)yi)=ξi
显然, ξ i ≥ 0 \xi_i\geq0 ξi0,并且
∣ f ( x i ) − y i ∣ ≤ ϵ |f(x_i)-y_i|\leq\epsilon f(xi)yiϵ时,得到 ξ i = 0 \xi_i=0 ξi=0
∣ f ( x i ) − y i ∣ > ϵ |f(x_i)-y_i|>\epsilon f(xi)yi>ϵ时,得到 ξ i = ∣ f ( x i ) − y i ∣ − ϵ \xi_i=|f(x_i)-y_i|-\epsilon ξi=f(xi)yiϵ
所以得到,
∣ f ( x i ) − y i ∣ − ϵ ≤ ξ i |f(x_i)-y_i|-\epsilon\leq\xi_i f(xi)yiϵξi

− ξ i − ϵ ≤ f ( x i ) − y i ≤ ξ i + ϵ -\xi_i-\epsilon\leq f(x_i)-y_i\leq\xi_i+\epsilon ξiϵf(xi)yiξi+ϵ
进一步SVR可以改写为如下形式,
min ⁡ w , b , ξ i   1 2 ∣ ∣ w ∣ ∣ 2 + C ∑ i = 1 m ξ i s ⁡ . t .    − ξ i − ϵ ≤ f ( x i ) − y i ≤ ξ i + ϵ ξ i ≥ 0 , i = 1 , 2 , . . . , m \begin{align*} &\min_{w,b,\xi_i}\space \frac12||w||^2+C\sum^m_{i=1}\xi_i \\ &\operatorname s.t. \space \space-\xi_i-\epsilon\leq f(x_i)-y_i\leq\xi_i+\epsilon\\ &\hspace{8mm} \xi_i \geq0 , i=1,2,...,m \end{align*} w,b,ξimin 21∣∣w2+Ci=1mξis.t.  ξiϵf(xi)yiξi+ϵξi0,i=1,2,...,m
如果考虑两边的不同的松弛程度:
min ⁡ w , b , ξ i   1 2 ∣ ∣ w ∣ ∣ 2 + C ∑ i = 1 m ( ξ i + ξ ^ i ) s ⁡ . t .    − ξ ^ i − ϵ ≤ f ( x i ) − y i ≤ ξ i + ϵ ξ i ≥ 0 , ξ ^ i ≥ 0 , i = 1 , 2 , . . . , m \begin{align*} &\min_{w,b,\xi_i}\space \frac12||w||^2+C\sum^m_{i=1}(\xi_i+\hat\xi_i) \\ &\operatorname s.t. \space \space-\hat\xi_i-\epsilon\leq f(x_i)-y_i\leq\xi_i+\epsilon\\ &\hspace{8mm} \xi_i \geq0 ,\hat\xi_i \geq0 , i=1,2,...,m \end{align*} w,b,ξimin 21∣∣w2+Ci=1mξi+ξ^is.t.  ξ^iϵf(xi)yiξi+ϵξi0,ξ^i0,i=1,2,...,m

  • 18
    点赞
  • 30
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

不是吧这都有重名

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值