通俗易懂—机器学习之支持向量机(SVM)

5 篇文章 0 订阅
5 篇文章 0 订阅

SVM的目标:找出能够最大化训练集数据间隔的最优分类超平面

例如,我们可以描绘一条直线然后所有代表男人的点都在直线的上边,代表女人的点都在直线的下边。这条黑色直线被称为分类超平面(如图0所示)。

图0:分类超平面

 

                                                                                           

间隔与支持向量:

给定训练样本集D={(x1,y1),(x2,y2),...,(xm,ym)},yi属于{-1,+1},

分类学习最基本的思想:基于训练集D在样本空间中找到一个划分超平面,将不同类别样本分开。

但能将训练样本分开的划分超平面可能有很多,如图1所示,我们应该努力去找到哪一个呢?

图1:存在多个划分超面将两类训练样本分开

 

                                                                       

直观上看,应该去找位于两类训练样本“正中间”的划分超平面(尽可能远离每一种类别数据点的超平面),如图1中最粗那一个,因为该划分超平面对训练样本局部扰动的“容忍性”最好。例如,由于训练集的局限性或噪声的因素,训练集外的样本可能比图1中的训练样本更接近两个类的分隔界,这将使许多划分超平面出现错误,而红色的超平面受影响最小(这个划分超平面所产生的分类结果是最鲁棒的,对未见示例的泛化能力最强)

在样本空间中,划分超平面可描述为:

                 W⋅X+b=0

其中,w={w1,w2,…,wn}为权重向量,决定了超平面的方向;X为训练元组,X={X1,X2,…,Xn} ;n是属性数;b偏倚标量,决定了超平面与原点之间的距离。(划分超平面可被权重向量w和偏倚b确定)(标量:只具有数值大小,而没有方向)

可以计算得到最大边缘平面之间的距离d为:

 

其中:

 

上式称作欧几里得范数。

 

假设超平面(w,b)能将训练样本正确分类,即:

式1:支持向量

 

                                                                                       

距离超平面最近的这几个训练样本使式1的等号成立,被称为“支持向量”(如图2所示)。

图2:支持向量

 

                                                                                                   

给定一个超平面,我们能够计算出超平面到最近的一个点的距离。一旦我们算出这个值,如果我们将距离乘以2我们就可以得到间隔(Margin)

最大边缘超平面(Maximum Marginal Hyperplane,MMH)也就是最优分类超平面将是拥有最大边距的那个超平面。(使得距离决策边界最近的点的距离之和最远

支持向量(Support Vector):两条红线穿过的点。

SVM分类器的复杂度由支持向量的数而不是数据的维数刻画。因此对于SVM 分类算法,待分样本集中的大部分样本不是支持向量,移去或者减少这些样本对分类结果没有影响。

 

核函数:

假设训练样本是线性可分的,即存在一个划分超平面能将训练样本正确分类。然而在现实任务中,原始样本空间内也许并不存在一个能够正确划分两类样本的超平面。如图3中的问题就不是线性可分的。

图3:非线性映射问题

 

 

对这样的问题,可使用:

      (1)核函数——将样本从原始空间映射到一个更高维的特征空间,使得样本在这个特征空间内线性可分;

      (2)继续在这个空间中构造最优分类超平面

例如,若将原始的二维空间映射到一个合适的三维空间,就能找到一个合适的划分超平面。如果原始空间是有限维(属性数有限)的,那么一定存在一个高维特征空间时样本可分。

我们希望样本在特征空间内线性可分,因此特征空间的好坏对支持向量机的性能至关重要。需注意的是,在不知道特征映射的行驶时,并不知道什么样的核函数是合适的,而核函数也仅是隐式地定义了这个特征空间。于是,“核函数选择”成为支持向量机的最大变数。若核函数选择不合适,则意味着样本映射到了一个不合适的特征空间,很可能导致性能不加。

 

核函数的价值:

1、它虽然也是将特征进行从低维到高维的转换,但核函数事先在低维上进行计算。 

2、将实质上的分类效果表现在了高维上,避免了直接在高维空间中的复杂计算。

常用的核函数:

图4:常用的核函数

 

 

  • 1
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值