机器学习进阶:SVM

本文详细介绍了支持向量机(SVM),包括线性可分SVM的概念,寻找最大边际的策略,以及软间隔的概念和重要参数C的影响。此外,还讨论了非线性SVM的解决方法,特别是核函数的应用,以及在sklearn库中如何配置SVM参数。
摘要由CSDN通过智能技术生成

1 线性可分支持向量机

1.1 概述

1.1.1 支持向量机分类器是什么

找到一个超平面把样本分成多份,但是对于一个数据集来说,让训练误差为0的决策边界可以有无数条。但这些决策边界在测试集上不一定会表现良好。
我们可以把决策边界B向两边平移,直到碰到离这条决策边界最近的方块和圆圈后停下,形成两个新的超平面,分别是b12和b11,并且我们将原始的决策边界移动到 b12和b11的中间,确保到B到b12和b11的距离相等。在b12和b11中间的距离,叫做 这条决策边界的边际(margin),通常记作d 。
在这里插入图片描述
支持向量机,就是通过找出边际最大的决策边界,来对数据进行分类的分类器

1.12 算法推导

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

2 线性支持向量机

不一定分类完全正确的超平面就是最好的,有时候我们可以接受一定的错误。

软间隔和硬间隔:
当两组数据是完全线性可分,我们可以找出一个决策边界使得训练集上的分类误差为0,这两种数据就被称为
是存在”硬间隔“的。当两组数据几乎是完全线性可分的,但决策边界在训练集上存在较小的训练误差,这两种
数据就被称为是存在”软间隔“。

软间隔让决策边界能够忍受一小部分训练误差。这个时候,我们的决策边界就不是单纯地寻求最大边际了,因为对于软间隔地数据来说,边际越大被分错的样本也就会越多,因此我们需要找出一个”最大边际“与”被分错的样本数量“之间的平衡

我们的目标函数变为:
在这里插入图片描述

2.2 重要参数C

C越大,如C趋向于正无穷时,此时为了取得最小值,₰i只能取0,此时过渡带最窄,因此C越大,过度带越窄;反之亦然。

C为松弛系数的惩罚项系数。如果C值设定比较大,那SVC可能会选择边际较小的,能够更好地分类所有训
练点的决策边界,不过模型的训练时间也会更长。如果C的设定值较小,那SVC会尽量最大化边界,决策功能会更简单,但代价是训练的准确度。换句话说,C在SVM中的影响就像正则化参数对逻辑回归的。在sklearn中C默认为1,当数据有很多噪声时,此时可以缩小C
在这里插入图片描述

3 非线性支持向量机

对于某些无法线性分割的数据,我们可以增加数据维度,如相当于给每个样本新增了z维度,此时我们就可以用平面把这些数据分割开来。
在这里插入图片描述

3.1 核函数

在这里插入图片描述

3.2 sklearn中关于核函数的参数

svc(kernel = ‘linear’)
在这里插入图片描述
在这里插入图片描述

4 sklearn中svm重要的参数

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值