机器学习——支持向量机(Support Vector Machine)

1、什么是支持向量机?

支持向量机(Support Vector Machine)是一种非常强大的、灵活的基于监督的机器学习算法。通俗地讲,标准的支持向量机是一种二元分类的算法。其基本模型定义为特征空间上的间隔最大的线性分类器。
在学习支持向量机之前有几个重要的概念:

  • 线性可分(Linearly Separable):在数据集中,如果可以找出一个超平面,将两组数据分开,那么这个数据集叫做线性可分数据。
  • 线性不可分(Linear Inseparable):在数据集中,没法找出一个超平面,能够将两组数据分开,那么这个数据集就叫做线性不可分数据。
  • 分割超平面(Separating Hyperplane):将数据集分割开来的直线/平面叫做分割超平面。
    通俗地将,如果处理对象是二维平面数据,此时超平面为一条直线;如果处理对象是三维空间数据,超平面就是一个平面;而处理对象是100维数据时,超平面就是一个99维的对象。
  • 间隔(Margin):数据点到分割超平面的距离称为间隔。
  • 支持向量(Support Vector):离分割超平面最近的那些点叫做支持向量。
2、线性可分的支持向量机

(1)分割超平面
对于线性可分的数据,我们需要找到一个超平面,对超平面的定义如下:
w T x + b = 0 w^Tx+b=0 wTx+b=0
w T x = w 1 x 1 + w 2 x 2 + ⋯ + w n x n w^Tx=w_1x_1+w_2x_2+\cdots+w_nx_n wTx=w1x1+w2x2++wnxn
w T x + b w^Tx+b wTx+b的结果其实就是一个分类标签,在支持向量机中,超平面将数据分成两类,分别是 y = 1 y=1 y=1 y = − 1 y=-1 y=1
假设函数:
h w b ( x ) = g ( w T x + b ) h_{wb}(x)=g(w^Tx+b) hwb(x)=g(wTx+b)
其中函数 g ( z ) g(z) g(z) w T x + b w^Tx+b wTx+b的结果值做了一个简单的映射,如下:
g ( z ) = { 1 , z ≥ 0 − 1 , z < 0 g(z)=\begin{cases} 1, & z\geq 0 \\ -1, & z<0 \end{cases} g(z)={ 1,1,z0z<0
在SVM中支持向量到超平面的函数距离一般设置为1,即若 w T x + b = 0 w^Tx+b=0 wTx+b=0,则数据点刚好在超平面上,当 w T x + b > 1 w^Tx+b>1 wTx+b>1时, y = 1 y=1 y=1,当 w T x + b < − 1 w^Tx+b<-1 wTx+b<1时, y = − 1 y=-1 y=1 ∣ w T x + b ∣ |w^Tx+b| wTx+b的大小代表数据点距离超平面的距离远近

我们可以找到多个可以分类的超平面将数据分开,并且优化时希望所有的点都离超平面尽可能的远,但是实际上离超平面足够远的点基本上都是被正确分类的,所以这个是没有意义的;反而比较关心那些离超平面很近的点,这些点比较容易分错。所以说我们只要让离超平面比较近的点尽可能的远离这个超平面,那么我们的模型分类效果应该就会比较不错。

(2)支持向量

真正发挥作用的数据点, α \alpha α值不等于0
可以看到两个支撑着中间的 gap 的超平面,它们到中间的纯红线(分割超平面separating hyper plane)的距离相等,即我们所能得到的最大的几何距离( geometrical margin),而“支撑”这两个超平面的必定会有一些点,而这些“支撑”的点便叫做支持向量Support Vector。
(3)SVM的核心思想
找到离分割超平面较近的点(预测错误可能会高),然后想办法让它们离超平面的距离远。

(4)间隔
一个点距离超平面的远近可以表示为分类预测的确信或准确程度。
间隔包括函数间隔和几何间隔:

  • 函数间隔
    在超平面 w T x + b = 0 w^Tx+b=0 wTx+b=0确定的情况下, ∣ w T x + b ∣ |w^Tx+b| wTx+b能够相对的表示点 x x x距离超平面的远近,而 w T x + b w^Tx+b
  • 1
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值