三个角度看SVM(1)——最大间隔分类器

“横看成岭侧成峰,远近高低各不同。”

支持向量机(Support Vector Machine, SVM)作为一个被广泛应用的有监督机器学习算法,网络上对它的介绍数不胜数,其中更有不少好文佳作。本文与它们的区别在于:并不着重于“教程式”地对SVM进行系统性介绍,而是希望从三个不同的角度对这个算法进行探究。我相信经过这番“把玩”,看过你会跟我一样觉得:机器学习真的是好玩!


1、引言

最大化类间间隔分类器(maximum margin classifier),估计是最为直观,也是最为人们所熟悉的对于SVM的理解。我们不妨也先从这个角度切入,看看为什么SVM能给我们带来优良的泛化能力。这一部分的路线图如下:
路线图

2、线性可分和线性分类器

对于一个二分类问题,如果存在至少一个超平面能够将不同类别的样本分开,我们就说这些样本是线性可分的(linear separable)。所谓超平面,就是一个比原特征空间少一个维度的子空间,在二维情况下就是一条直线,在三维情况下就是一个平面。

线性分类器(linear classifier)是一类通过将样本特征进行线性组合来作出分类决策的算法,它的目标就是找到一个如上所述能够分割不同类别样本的超平面。这样在预测的时候,我们就可以根据样本位于超平面的哪一边来作出决策。

用数学语言来描述,一个线性函数可以简单表示为: f(x)=wTx+b ,而线性分类器则根据线性函数的结果进行分类决策:

y=g(f(x))=g(wTx+b)
其中 g() 是一个将变量映射到不同类别的非线性函数,可以简单取为:
g(z)=1,1,if z0if z<0

即分类的结果由 f(x) 的符号决定, f(x)=wTx+b0 即为分类超平面。

下图展示了几个线性可分/不可分的例子,并且画出了一个可能的分类超平面:
图片来源

3、最大化间隔

在样本线性可分的情况下,可行的分类超平面可能会有很多,如下图的 L1 L2 L3
这里写图片描述

那么怎么选择一个最好的呢?从上图我们可以直观看出, L2 比另外两条分界线要更好,这是因为 L2 离样本的距离更远一些,让人觉得确信度更高。这好比人(相当于样本)站在离悬崖边(分类边界)越远,人就会感到越安全(分类结果是安全还是危险)。从统计的角度讲,由于正负样本可以看作从两个不同的分布随机抽样而得,若分类边界与两个分布的距离越大,抽样出的样本落在分类边界另一边的概率就会越小。

SVM正是基于这种直观思路来确定最佳分类超平面的:通过选取能够最大化类间间隔的超平面,得到一个具有高确信度和泛化能力的分类器,即最大间隔分类器。

3.1、间隔

既然SVM的目标是最大化间隔,我们便要先对“间隔”进行定义。所谓间隔,就是分类超平面与所有样本距离的最小值,表示为:

γ=min{ dist(l,xi) | i=1,2,...,N}
其中 l 表示分类超平面, N 为样本个数, xi 为第 i 个样本。接下来我们还需要定义样本到超平面的“距离” dist(l,x)

假设任意一个样本点 x0 ,其在分类超平面上的投影记作 x̂ 

  • 10
    点赞
  • 29
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值