【机器学习-西瓜书】第6章 支持向量机

一种二分类模型,是定义在特征空间上的 间隔最大的线性分类器;SVM 的学习策略是 间隔最大化,学习算法是求解凸二次规划的最优化算法,可等价于 正则化的 合页损失函数最小化问题。由简至繁的模型有: 线性可分支持向量机( (数据线性可分,硬间隔最大化)、线性支持向量机 (数据近似线性可分,软间隔最大化)、非线性支持向量机 (数据线性不可分,核技巧)。当输入空间为 欧氏空间或离散集合、特征空间为希尔伯特空间时,通过核函数将 输入从输入空间映射到特征空间得到 特征向量之间的内积。该方法称为核技巧,是一.
摘要由CSDN通过智能技术生成

一种二分类模型,是定义在特征空间上的 间隔最大的线性分类器;

SVM 的学习策略是 间隔最大化,学习算法是求解凸二次规划的最优化算法,可等价于 正则化的 合页损失函数最小化问题。

由简至繁的模型有: 线性可分支持向量机( (数据线性可分,硬间隔最大化)、线性支持向量机 (数据近似线性可分,软间隔最大化)、非线性支持向量机 (数据线性不可分,核技巧)。

当输入空间为 欧氏空间或离散集合、特征空间为希尔伯特空间时,通过核函数将 输入从输入


目录

6.1 间隔与支持向量

《统计机器学习-李航》第7.1.2节 函数间隔和几何间隔

《统计机器学习-李航》第7.1.3节  间隔最大化

1 最大间隔分离超平面

2 最大间隔分离超平面的存在唯一性

3 支持向量 和 间隔边界

6.2 对偶问题

引自《统计机器学习》:对偶最优化问题

《统计机器学习-李航》第7.1.4节 学习的对偶算法

6.3 核函数

什么样的函数可以作核函数呢?<-> positive definite kernel function

常用核函数:

 《统计学习方法》7.3 非线性SVM 与 核函数

7.3.1 核技巧

核函数定义

 7.3.2 正定核

函数K(x, z)满足什么条件 才能成为 核函数?

 ​

7.3.3 常用核函数

多项式核函数 (polynomial kernel function)

高斯核函数 (Gaussian kernel function)

字符串核函数 (string kernel function)

6.4 软间隔 与 正则化

若将0/1损失函数换成其他损失函数,得到更一般的学习模型:

软间隔SVM

《统计学习方法》7.2 线性SVM 与 软间隔最大化

7.2.1 线性支持向量机

7.2.2  学习的对偶算法

算法 7.3 (线性支持向量机学习算法)

 7.2.3 支持向量

 7.2.4 合页损失函数

6.5 支持向量回归

SVR 问题的优化目标

6.6 核方法

如何得到“核线性判别分析*(Kernelized Linear Discriminant Analysis)

《统计机器学习》7.3.4 非线性SVCM

《统计机器学习》7.4 SMO (Sequential Minimal Optimization)算法 


6.1 间隔与支持向量

二分类问题:

给定训练样本集D = \{(x_{1},y_{1}), (x_{2},y_{2}),..., (x_{m},y_{m})\}, y_{i}\in \{-1, +1\}

找到一个划分超平面,将不同类别的样本分开,且 该划分超平面对训练样本局部扰动的容忍性最好。划分超平面在样本空间中由w 和 b 确定,且法向量w指向的一侧为正类,另一侧为负类,可通过下式描述

w^{T}x+b=0

样本空间中任意点x 到超平面(w, b)的距离可写为:

r=\frac{|w^{T}x+b|}{||w||}

而对于样本点(x_{i}, y_{i})\in D,若

\begin{Bmatrix} w^{T}x_{i}+b \geq +1, & y_{i} = +1;\\ w^{T}x_{i}+b \leqslant -1, & y_{i} = -1 \end{Bmatrix} \ \ \ \ \ \ (6.3)

定义使得上述不等式()6.3) 的等号成立的样本点,被称为支持向量(support vector),两个异类支持向量到超平面的距离之和称为间隔(margin),定义如下:

\gamma =\frac{2}{||w||} \ \ \ \ \ (6.4)

欲找到具有“最大间隔 ”(maximum margin) 的划分超平面,即等价于 找到能满足式(6.3)的约束的 w 和 b,使得 γ 最大,即:

\underset{w,b}{max} \ \ \frac{2}{||w||} \ \ \ \ \ \ \ \ \ \ \ \ (6.5) \\ s.t. \ \ \ y_{i}(w^{T}x_{i} + b) \geq 1 , i=1,2, ... ,m

上式可等价转化为最小化下式,即支持向量机 (Support Vector Machine) 的基本型,即原始问题

\underset{w,b}{min} \ \ \frac{1}{2} ||w||^{2}\\ s.t. \ \ \ y_{i}(w^{T}x_{i}+b)\geq 1, \ \ i=1,2, ... ,m \ \ \ \ \ (6.6)

《统计机器学习-李航》第7.1.2节 函数间隔和几何间隔

 一个点距离分离超平面的远近 可以表示分类预测的确信程度。上图中点A的确信程度高于点C。

在超平面wx+b=0 确定的情况下,|wx+b| 可以相对地表示 点x距离超平面的远近。

使用 y(wx+b)来表示 分类的正确性及确信度,这就是函数间隔(functional margin)。

定义7.2 (函数间隔)

对于给定的训练数据集D 和 超平面(w, b),定义超平面 (w, b)关于样本点 (xi, yi)的函数间隔为:

\hat{\gamma}_{i}=y_{i}(w \cdot x_{i}+b) \ \ \ (7.3)

定义超平面(w, b)关于训练集 D 的函数间隔为 超平面 (w, b)关于 D 中所有样本点 (xi, yi)的函数间隔的最小值,即

\hat{\gamma } = \underset{i=1,2,..., N}{min} \ \ \hat{\gamma }_{i} \ \ \ (7.4)

但是选择分离超平面时,需要考虑到 等比例改变w和b后将得到不同的函数间隔,但实际上超平面并没有改变。因此 可以对分离超平面的法向量w加上某些约束,如规范化||w||=1,使得间隔确定,此时函数间隔便成为了几何间隔(geometric margin)

定义7.3 (几何间隔)

对于给定的训练集 D 和 超平面 (w, b),定义超平面 (w, b) 关于样本点 (xi, yi)的几何间隔为

\gamma _{i} = y_{i}\left ( \frac{w}{||w||}\cdot x_{i} + \frac{b}{||w||} \right ) \ \ \ \ (7.5)

定义超平面(w, b)关于训练集 D 的几何间隔为 超平面 (w, b)关于 D 中所有样本点 (xi, yi)的几何间隔的最小值,即

\gamma =\underset{i=1,2,...,N}{min} \ \ \gamma _{i} \ \ \ \ \ (7.6)

函数间隔 和 几何间隔的关系为:

\gamma =\frac{\hat{\gamma }}{||w||} \ \ \ (7.8)

《统计机器学习-李航》第7.1.3节  间隔最大化

间隔最大化的直观解释:对训练集找到几何间隔最大的超平面意味着 以充分大的确信度对训练数据进行分类,即对那些最难分的实例点 (距离超平面最近的点)也有足够大的确信度将它们分开。

1 最大间隔分离超平面

如何求得一个 几何间隔最大的分离超平面,可表示为以下 约束最优化问题

\underset{w, b}{max} \ \ \frac{\hat{\gamma }}{||w||} \ \ \ \ \ (7.11) \\ s.t. \ \ \ \ y_{i}(w\cdot x_{i} + b) \geq \hat{\gamma } , \ \ i=1,2,..., N \ \ \ \ (7.12)

如上一节中解释的那样,由于函数间隔的的等比例改变 对最优化问题的不等式约束没有影响,所以 取\hat{\gamma } = 1,带入式 (7.11),得到最大化 \frac{1}{||w||}该式等价于下式,是原始最优化问题:

\underset{w, b}{min} \ \ \frac{1}{2}||w||^{2} \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \(7.13)\\ s.t. \ \ \ \ y_{i}(w\cdot x_{i}+b)-1\geq 0, \ \ i=1,2,..., N \ \ \ \ (7.14)

算法 7.1 (线性可分支持向量机学习算法——最大间隔法)

输入:数据集 D=\{(x_{1}, y_{1}), (x_{2}, y_{2}), .. , (x_{N}, y_{N})\}, x_{i}\in\chi = \mathbb{R}^{n} , \ y_{i}\in Y = \{-1, +1\}, i=1,2,...,N

输出:最大间隔分离超平面 和 分类决策函数

1)构建并求解约束最优化问题:

\underset{w, b}{min} \ \ \frac{1}{2}||w||^{2} \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \(7.13)\\ s.t. \ \ \ \ y_{i}(w\cdot x_{i}+b)-1\geq 0, \ \ i=1,2,..., N \ \ \ \ (7.14)

 求得最优解 w^{\ast },\ b^{\ast }

2)得到分离超平面 和 分类决策函数:

w^{\ast }\cdot x+\ b^{\ast } = 0\\ f(x) = sign(w^{\ast }\cdot x+\ b^{\ast })

2 最大间隔分离超平面的存在唯一性

定理7.1 (最大间隔分离超平面的存在唯一性)

若训练集 D 线性可分,则 可将训练集 D 中的样本点完全正确分开的 最大间隔分离超平面存爱且唯一。

证明参见《统计机器学习》p101

3 支持向量 和 间隔边界

支持向量 是使约束条件式 (7.14)等号成立的点,即

y_{i}(w\cdot x_{i}+b) - 1 = 0

6.2 对偶问题

式(6.6)是一个凸二次规划问题 (convex quadratic programming)

凸优化问题指的是 如下约束最优化问题

\underset{w}{min} \ \ f(w) \ \ \ \ (7.15)\\ s.t. \ \ \ g_{i}(w) \leqslant 0, \ i=1,2, ..., k \ \ \ \ \ (7.16)\\ h_{i}(w) = 0, \ i=1,2, ..., l \ \ \ \ \ (7.17)

目标函数 f(x) 和 约束函数  g_{i}(w) 均是 \mathbb{R}^{n} 上的连续可微的凸函数,约束函数 h_{i}(w) 为 \mathbb{R}^{n}

上的仿射函数 

使用拉格朗日乘子法,得到其“对偶问题”  (dual problem),通过求解对偶问题 得到原始问题 (primal problem)的最优解。

具体来说,对式 (6.6)的每条约束添加拉格朗日乘子 (lagrange multiplier) αi ≥ 0,则可构建该问题的拉格朗日函数如下:

L(w, b ,\alpha ) = \frac{1}{2} ||w||^{2} + \sum_{i=1}^{m} \alpha _{i}(1-y_{i}(w^{T}x_{i}+b)) \ \ \ \ (6.8) \\ =\frac{1}{2} ||w||^{2} - \sum_{i=1}^{m}\alpha _{i}y_{i} (w\cdot x_{i}+b) + \sum_{i=1}^{m}\alpha _{i}\\ \alpha = (\alpha _{1}, \alpha _{2}, ..., \alpha _{m})

根据拉格朗日对偶性,原始问题的对偶问题 是极大极小问题

\underset{\alpha }{max} \ \ \underset{w,b}{min} \ \ L(w,b,\alpha )

因此,先求解 L(w, b, α)对w,b的极小,再求对α的极大。

1) 求 \underset{w,b}{min} \ \ L(w,b,\alpha )

令 L(w, b ,α )对 w 和 b的偏导为零,可得:

w=\sum_{i=1}^{m}\alpha _{i}y_{i}x_{i} \ \ \ (6.9)\\ 0 = \sum_{i=1}^{m} \alpha _{i}y_{i} \ \ \ \ (6.10)

将式(6.9)带入式(6.8),并考虑式(6.10)的约束,可得到式(6.6)的对偶问题:

L(w, b, \alpha )= \frac{1}{2}\sum_{i=1}^{m}\sum_{j=1}^{m}\alpha _{i}\alpha _{j}y_{i}y_{j}(x_{i}\cdot x_{j}) - \sum_{i=1}^{m}\alpha _{i}y_{i} ((\sum_{j=1}^{m}\alpha _{j}y_{j}x_{j})\cdot x_{i} + b ) + \sum_{i=1}^{m}\alpha _{i} \\ =-\frac{1}{2}\sum_{i=1}^{m}\sum_{j=1}^{m}\alpha _{i}\alpha _{j}y_{i}y_{j}(x_{i}\cdot x_{j}) + \sum_{i=1}^{m}\alpha _{i}

2)最小化上式 L(w, b, α),即求 \underset{w, b}{min} \ L(w, b, \alpha ) 对 α的极大,等价于 求解对偶问题:

  • 1
    点赞
  • 18
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值