机器学习——————支持向量机

1. 基于最大间隔分割数据

支持向量机:

优点:泛化错误率低,计算开销不大,结果易解释。

缺点:对参数调节和函数的选择敏感,原始分类器不加修改仅适用于处理二类问题。

适用数据类型:数值型和标称型数据。

        如下图 A-D 4 个方框中的数据点分布,不能画出一条直线将圆形点和方形点分开。故其为线性不可分的数据集。

                                                图1.1   4个线性不可分数据集

而如图1.2 的方框A中的两类数据之间分隔足够开,很容易在图中画出一条直线将两组数据点分开。这种情况下,这组数据被称为线性可分数据。

图1.2  A框中给出了一个线性可分的数据集,B、C、D框中各自给出了一条可以将两类数据分开的直线

上述将数据集分隔开来的直线称为分隔超平面。上面例子的数据点都在二维平面上,所以分隔超平面就只是一条直线。但若给的数据集是三维的,则用来分隔数据的就是一个平面。更高维的情况也可以以此类推。如果数据集是1024维的,那么就需要一个1023维的某某对象来对数据进行分隔,而这个对象被称为超平面,也就是分类的决策边界。分布在超平面一侧的所有数据都属于某个类别,而分布在另一侧的所有数据则属于另一个类别。

鉴于上,我们希望能采用这种方式来构建分类器,即如果数据点离决策边界越远,那么其最后的预测结果也就越可信。图1.2的B、C、D框都能将数据分隔开,但我们希望找到离分隔超平面最近的点,确保它们离分隔面的距离尽可能远。这里点到分隔面的距离被称为间隔。也就是希望这个间隔尽可能大,这样如果我们犯错或者在有限数据上训练分类器,分类器相对会更健壮。

支持向量就是离分隔超平面最近的那些点。所以我们要解决的是:优化求解方法以求最大化支持向量到分隔面的距离。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值