SVM,大间距分类器?

我们先来看看SVM模型的目标函数

从坐标曲线可以看出,当y=1时,我们希望  ,而不仅仅是>=0,这样一来cost1降到了最低,为0。同样,当y=0时,我们希望,而不仅仅是<0,这样一来cost2降到了最低,为0。这说明了支持向量机的要求更高,这就相当于在SVM中嵌入了一个额外的安全因子,或者说安全的间距因子。

接下来,我们看看这个间距因子会有什么样的影响。

如果C非常大,则最小化代价函数的时候,我们希望找到一个使得第一项A

为0的 最优解。也就是说我们想,当训练样本标签为y=1,想令cost1=0,即A=0,则需要找到一个θ,使得,类似的,y=0时,想令cost0=0,即A=0,则需要找到一个θ,使得。由此,当最优化这个问题时,会得到一个非常有趣的决策边界。

图中有明显可分的两块样本点,我们称之为正样本和负样本。从图中可以看出,存在多条不同的直线,可以把正样本和负样本完全分开,这些直线,我们称之为决策边界。那么,到底哪一个是最好的呢?

SVM将会选择黑色的决策边界,相较于其他的两个边界,这条黑色的边界要好很多,看起来是更稳健的决策边界,在分离正样本和负样本上显得更好,这么说,显得有的通俗,说服力欠缺,到底为什么SVM会选择这条黑色边界呢?

SVM有一个标准,那就是会选择间距更大的决策边界。而这条黑线的间距更大,所以选择了这条黑线。什么是间距呢?看下图:

我们将这条黑线,分别向上和向下平移,向上平移的直线A平移到贯穿或者说经过正样本的某一个或者多个样本点为止,也就是说只要一碰到正样本的样本点就停下来,不在平移,向下平移的直线B是一个道理。平行线A和B之间的距离,也就是两条直线之间的距离 公式如下:

这个距离就是间距,即支持向量机的间距。

我们当然也可以用相同的操作算出其他两条直线的间距,对比之下,就可以得到黑色直线的间距最大,而这时SVM具有鲁棒性(Robust的音译,健壮和强壮的意思)的原因,因为他努力用一个最大间距来分离样本,因此SVM有时被称为大间距分类器。

在联系上面的,我们将C设置的非常大,比如100000,那么我们希望第一项A尽可能小,也就说我们想要最佳的参数θ,即一个最佳的决策边界(如黑色曲线),从而最大间距地分离正样本和负样本,使得A最小。则我们的最小化问题变转变成:

如果有一些异常点(outlier)呢,如下图所示:

为了将样本用最大间距分开,我们得到了上图中粉色的线,但是,仅仅基于一个异常值或者说一个样本,决策边界就从黑线变成了粉色线,实在是不明智的。事实上,如果C设置的非常大,为了使A最小,即决策边界的间距尽可能最小,决策边界确实会从黑线变成粉色线。对此,我们适当减小C的值,我们就又得到了黑线决策边界。 也就是说SVM具有良好的性能,不怕异常值。当然,如果数据不是线性可分的,正样本中有一些负样本异常值,或者负样本中有一些正样本异常值,SVM也会将它们恰当分开。

总结一下:当C不是非常非常大的时候,它可以忽略一些异常点的影响,得到更好的决策界。

                C较大时,相当于 λ 较小,可能会导致过拟合,高方差。

                C叫小时,相当于 λ 较大,可能会导致欠拟合,高偏差。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值