SVM支持向量机


前言

SVM被提出于1964年,在二十世纪90年代后得到快速发展并衍生出一系列改进和扩展算法,在人像识别、文本分类等模式识别(pattern recognition)问题中有得到应用 。SVM是由模式识别中广义肖像算法(generalized portrait algorithm)发展而来的分类器 ,其早期工作来自前苏联学者Vladimir N. Vapnik和Alexander Y. Lerner在1963年发表的研究 。1964年,Vapnik和Alexey Y. Chervonenkis对广义肖像算法进行了进一步讨论并建立了硬边距的线性SVM 。此后在二十世纪70-80年代,随着模式识别中最大边距决策边界的理论研究 、基于松弛变量(slack variable)的规划问题求解技术的出现 ,和VC维(Vapnik-Chervonenkis dimension, VC dimension)的提出 ,SVM被逐步理论化并成为统计学习理论的一部分 。1992年,Bernhard E. Boser、Isabelle M. Guyon和Vapnik通过核方法得到了非线性SVM 。1995年,Corinna Cortes和Vapnik提出了软边距的非线性SVM并将其应用于手写字符识别问题 ,这份研究在发表后得到了关注和引用,为SVM在各领域的应用提供了参考。


一、相关概念

1.SVM

SVM本质模型是特征空间中最大化间隔的线性分类器,是一种二分类模型。
间隔最大使它有别于感知机。

2.SVM的分类

1.线性可分支持向量机(硬间隔最大化)
2.线性支持向量机(训练数据近似线性可分时,通过软间隔最大化。
3.非线性支持向量机(当训练数据线性不可分时,通过使用核技巧及软间隔最大化。

3.SVM的三类问题

(1)数据线性可分,硬间隔SVM
(2)数据近似线性可分,软间隔SVM
(3)数据不可以线性分,核技巧

二、线性可分和线性不可分

1.线性可分和线性不可分的定义

线性可分:有一条直线,可以将O和X分开。如下图
在这里插入图片描述
线性不可分:不存在一条直线,将O和X分开。
在高维度是,我们需要借助数学来定义

在数学上严格的定义:
在二维上
在这里插入图片描述
(大于0小于0区域使我们自己设的,你只需要令参数为相反,即区域就互换一下即可)

假设:现在有N个训练样本集以及他们的标签在这里插入图片描述
严格定义:一个训练样本集{(xi,yi),…(xn,yn)},在i=1–N线性可分,是指存在(w1,w2,b),使得对i=1—N,有:
在这里插入图片描述
用向量形式定义:
假设
在这里插入图片描述
可在总结为一句话:
在这里插入图片描述

2.点到超平面的距离

在这里插入图片描述

三、问题描述

1.引出问题

如果是线性可分的,在这无数多个分开各个类别的超平面中,到底哪一个才是最好的?

在这里插入图片描述

2.最优化理论

假设对任一条分开的线,把它向一侧平行的移动,当它擦到一个或几个样本为止。同时,也向另外一层平行移动。我们求的就是间隔最大的线

用图像来显示
在这里插入图片描述
支持向量:我们定义两条平行线擦到的训练样本,叫做支持向量。
间隔:两条平行线的距离。
中间的线我们取名为决策边界

支持向量机寻找最优分类的直线应该满足:
1.该直线分开了两类
2.该直线最大化间隔
3.该直线处于间隔的中间,到所有支持向量距离相等的点
(这是二维的讨论是直线,高维度直线则变成超平面)

四、优化问题

1.最大化间隔

推导的过程
在这里插入图片描述
在这里插入图片描述
为了方便后面求导,我们一般将其转换为最小化1/2||w||^2
在这里插入图片描述
w为一个向量,w模的平方

2.优化问题求解

(1)拉格朗日数乘法
拉式乘数法主要用来求解带约束条件下的极值
在这里插入图片描述
那么根据之前的条件,我们可以写出
在这里插入图片描述

3.原问题与拉格朗日对偶问题

(1)原问题
在这里插入图片描述
(2)对偶问题
在这里插入图片描述
有几个定理
在这里插入图片描述
在这里插入图片描述
KKT条件:从上面公式理解就是ai=0或g(w)=0

五、硬间隔最大优化问题求解

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
用一个例子
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

六、软间隔最大优化问题求解

1.近似线性可分问题导出

近似线性可分简而言之,就是在线性可分的情况下,加了一些噪声数据点。
在这里插入图片描述
在这里插入图片描述

2.优化问题求解

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

七、非线性SVM问题

1.引出问题

若出现
在这里插入图片描述
线性不可分的情况,我们该怎么做?

2.低维到高维的映射

定理:在一个M维空间上随机取N个训练样本,随机对每个样本赋予标签+1和-1,假设这些训练样本线性可分的概率为P(M),当M趋于无穷大时,P(M)的概率趋向于1

3.核函数

在这里插入图片描述

4.常用的核函数

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

总结

以上就是对SVM的学习,其中SMO算法暂时还没有去学习,对核函数相关内容仍有一些不足。

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值