李航统计学习-支持向量机(SVM)之我的理解

支持向量机 是一种 二分类模型


SVM 不同于 感知机   是因为 SVM学习策略是间隔最大化,可以将该问题理解为凸二次规划问题,也可以将该问题理解为正则化的合叶损失函数最小化问题


支持向量机学习方法 可以从简单到繁杂分成三种:

 线性可分支持向量机(可以使用硬间隔最大化学习线性分类器),

 线性支持向量机(使用软间隔最大化学习),

 非线性支持向量机(使用核技巧以及软间隔最大化


现在给支持向量机解决问题做一个通用的描述:



 问题的输入是:一组训练数据集T={(x1, y1),(x2, y2), ... ,(xn, yn)}, xi 是n维向量,yi是一个二元数据{+1,-1}

  输出是:找到一个分离超平面(对应的方程是 w*x + b = 0),将结果为 +1的数据和结果为 -1的数据分开

我们将yi=+1称之为正例,-1称之为负例



为了解决这类问题,我们将一类一类讲述分体的解决方法


当训练样本是属于线性可分时,存在无穷个分离超平面可以将两类数据正确分开,此时为了最优分类线性可分的数据集,

我们将线性可分数据利用间隔最大化求出分离超平面。

啥叫做间隔最大化呢,这个就要开始讲述函数距离以及几何距离


一般来说,一个点距离一个评判标准的预测方向越远,说明确信度越高。比如:我们预测 4小时以上没吃饭的人可能肚子饿,如果某个人 5小时没吃饭,我们可以判断这个人有可能肚子饿,如果某个人8小时没吃饭,我们更加能够判断这个人肚子饿。为什么呢,因为时间距离 (8 - 4)> (5 - 4),所以我们更加有把握觉得这个人肚子饿。将问题推广到n维空间上,我们自己定义一个公式|w*x+b|,表示点x距离超平面的远近。标记y与w*x+b的符号是否一致能够表示分类是否正确,当w*x+b>0时,y=1,当w*x+b<0时,y=-1。因此y与w*x+b永远同号,所以y(w*x+b)在预测分离超平面上恒大于0。所以y(w*x+b)能够度量分类的正确性以及可信度,如果w*x+b>0,但是y<0,那么y(w*x+b)<0,就是一个失败的预测。

如下图:



根据以上知识,我们可以开始介绍函数间隔以及几何间隔了

函数间隔概念:


这里注意超平面不是w,而是(w,b),n+1维。函数间隔有个特点,就是能够等比例的缩放,而超平面并没有改变。想想,4x1 + 6x2 + 8 = 0和2x1 + 3x2 + 4 = 0描述的其实是同一个平面,但是函数距离却被缩成了原来的1/2。这可以让我们想到可以对超平面的法向量做一个规范化,||w|| = 1,使得函数间隔无论怎么缩小放大,间隔都是确定的,这个时候函数间隔就变成了几何间隔。


因此,几何间隔的概念就能够引出来了:


讲完函数间隔和几何间隔后,我们可以开始将啥是间隔最大化了。

首先,我们知道,支持向量机学习的基本想法有两个:

1. 求解能够正确划分训练数据集

2. 几何间隔最大,就是离超平面最近的两个点(min)距离要最大(max)[我们也称之为硬间隔最大化]

其实也能够比较容易解释为啥要这样做,因为这样能够最大化的原理超平面,这样的话可信度就更高(敲黑板!一个点距离一个评判标准的预测方向越远,说明确信度越高。

下面我们就开始谈谈求解最大间隔分离超平面吧,下面是关于集合间隔最大分离超平面问题的数学描述:


求几何距离的最大值,其实也就是求函数r关于w,b的极大值(公式7.9),但是这个极大值又不能够毫无约束,因为所有数据距离超平面的长度都要大于等于r值(公式7.10)。根据几何间隔和函数间隔的关系,可以转化成公式7.11,7.12。

因此就转化成了关于函数距离的公式求解,由于公式 7.11 中的r = min(yi(wi*x + b)), 公式中的w,b同时放大缩小倍数都不会影响公式7.11,7.12。所以可以令r = 1。此外,求1/||w||的最大值等价于求解 ||w||的最小值,也可以等价于1/2*||w||^2的最小值,所以公式可以转化成如下形式:


该问题其实就可以转化成一个凸二次规划问题。

要成为凸二次规划问题,需要满足的条件如下:

1. 目标函数(7.13)是二次函数

2. 目标函数和约束函数都是在R^n上可微的

3. 约束函数是仿射函数(这个条件我也不知道,知道的朋友们可以在评论区解释下谢谢)


求解目标函数相当于求解出最优 w*,b*,这样就能够求解出最大分离平面w*• x + b* = 0,最后就能够求出来分类决策函数f(x) = sign(w* • x + b* = 0)了。

到此,可以讲一下线性可分支持向量机学习算法了。


最大间隔分离超平面是存在且唯一的,证明从略,可以看看书上咋讲的。

分离超平面是怎么形成的呢,这个就要讲讲概念支持向量了了。

支持向量就是 训练数据集的样本点中与分离超平面距离最近的样本点的实例,这个概念书中也讲的挺清楚的,我就不详细叙述了。


求解线性可分支持向量机
作为带约束问题的最优化求解,我们可以使用Lagrange对偶性求解该对偶问题。
首先根据每一个不等式约束,引进Lagrange乘子αi >= 0,定义拉格朗日函数:
 L(w, b, a) = 1/2||w||^2 - ∑αiyi(w*xi + b) + ∑αi,其中α=(α1,α2,α3,...,αN)T,为拉格朗日乘子向量
  • 5
    点赞
  • 16
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值