【机器学习-西瓜书】第6章支持向量机

wayaya112

已于 2022-03-31 14:01:02 修改

阅读量3.8k

点赞数 1

文章标签：机器学习

于 2022-03-31 13:58:27 首次发布

本文链接：https://blog.csdn.net/wayaya112/article/details/123818776

版权

一种二分类模型，是定义在特征空间上的间隔最大的线性分类器；SVM 的学习策略是间隔最大化，学习算法是求解凸二次规划的最优化算法，可等价于正则化的合页损失函数最小化问题。由简至繁的模型有：线性可分支持向量机( (数据线性可分，硬间隔最大化)、线性支持向量机 (数据近似线性可分，软间隔最大化)、非线性支持向量机 (数据线性不可分，核技巧)。当输入空间为欧氏空间或离散集合、特征空间为希尔伯特空间时，通过核函数将输入从输入空间映射到特征空间得到特征向量之间的内积。该方法称为核技巧，是一.

摘要由CSDN通过智能技术生成

一种二分类模型，是定义在特征空间上的间隔最大的线性分类器；

SVM 的学习策略是间隔最大化，学习算法是求解凸二次规划的最优化算法，可等价于正则化的合页损失函数最小化问题。

由简至繁的模型有：线性可分支持向量机( (数据线性可分，硬间隔最大化)、线性支持向量机 (数据近似线性可分，软间隔最大化)、非线性支持向量机 (数据线性不可分，核技巧)。

当输入空间为欧氏空间或离散集合、特征空间为希尔伯特空间时，通过核函数将输入从输入

6.1 间隔与支持向量

《统计机器学习-李航》第7.1.2节函数间隔和几何间隔

《统计机器学习-李航》第7.1.3节间隔最大化

《统计机器学习-李航》第7.1.4节学习的对偶算法

6.3 核函数

什么样的函数可以作核函数呢？<-> positive definite kernel function

常用核函数：

《统计学习方法》7.3 非线性SVM 与核函数

7.3.1 核技巧

核函数定义

7.3.2 正定核

函数K(x, z)满足什么条件才能成为核函数？

7.3.3 常用核函数

多项式核函数 (polynomial kernel function)

高斯核函数 (Gaussian kernel function)

字符串核函数 (string kernel function)

6.4 软间隔与正则化

若将0/1损失函数换成其他损失函数，得到更一般的学习模型：

软间隔SVM

《统计学习方法》7.2 线性SVM 与软间隔最大化

如何得到“核线性判别分析*（Kernelized Linear Discriminant Analysis）

《统计机器学习》7.3.4 非线性SVCM

《统计机器学习》7.4 SMO (Sequential Minimal Optimization)算法

6.1 间隔与支持向量

二分类问题：

给定训练样本集 $D = \{(x_{1},y_{1}), (x_{2},y_{2}),..., (x_{m},y_{m})\}, y_{i}\in \{-1, +1\}$

找到一个划分超平面，将不同类别的样本分开，且该划分超平面对训练样本局部扰动的容忍性最好。划分超平面在样本空间中由w 和 b 确定，且法向量w指向的一侧为正类，另一侧为负类，可通过下式描述

$w^{T}x+b=0$

样本空间中任意点x 到超平面(w, b)的距离可写为:

$r=\frac{|w^{T}x+b|}{||w||}$

而对于样本点 $(x_{i}, y_{i})\in D$ ，若

$\begin{Bmatrix} w^{T}x_{i}+b \geq +1, & y_{i} = +1;\\ w^{T}x_{i}+b \leqslant -1, & y_{i} = -1 \end{Bmatrix} \ \ \ \ \ \ (6.3)$

定义使得上述不等式()6.3) 的等号成立的样本点，被称为支持向量（support vector），两个异类支持向量到超平面的距离之和称为间隔（margin），定义如下：

$\gamma =\frac{2}{||w||} \ \ \ \ \ (6.4)$

欲找到具有“最大间隔 ”(maximum margin) 的划分超平面，即等价于找到能满足式(6.3)的约束的 w 和 b，使得 γ 最大，即：

$\underset{w,b}{max} \ \ \frac{2}{||w||} \ \ \ \ \ \ \ \ \ \ \ \ (6.5) \\ s.t. \ \ \ y_{i}(w^{T}x_{i} + b) \geq 1 , i=1,2, ... ,m$

上式可等价转化为最小化下式，即支持向量机 (Support Vector Machine) 的基本型，即原始问题。

$\underset{w,b}{min} \ \ \frac{1}{2} ||w||^{2}\\ s.t. \ \ \ y_{i}(w^{T}x_{i}+b)\geq 1, \ \ i=1,2, ... ,m \ \ \ \ \ (6.6)$

《统计机器学习-李航》第7.1.2节函数间隔和几何间隔

一个点距离分离超平面的远近可以表示分类预测的确信程度。上图中点A的确信程度高于点C。

在超平面wx+b=0 确定的情况下，|wx+b| 可以相对地表示点x距离超平面的远近。

使用 y(wx+b)来表示分类的正确性及确信度，这就是函数间隔(functional margin)。

定义7.2 （函数间隔）

对于给定的训练数据集D 和超平面(w, b)，定义超平面 (w, b)关于样本点 (xi, yi)的函数间隔为：

$\hat{\gamma}_{i}=y_{i}(w \cdot x_{i}+b) \ \ \ (7.3)$

定义超平面(w, b)关于训练集 D 的函数间隔为超平面 (w, b)关于 D 中所有样本点 (xi, yi)的函数间隔的最小值，即

$\hat{\gamma } = \underset{i=1,2,..., N}{min} \ \ \hat{\gamma }_{i} \ \ \ (7.4)$

但是选择分离超平面时，需要考虑到等比例改变w和b后将得到不同的函数间隔，但实际上超平面并没有改变。因此可以对分离超平面的法向量w加上某些约束，如规范化||w||=1，使得间隔确定，此时函数间隔便成为了几何间隔（geometric margin）。

定义7.3 （几何间隔）

对于给定的训练集 D 和超平面 (w, b)，定义超平面 (w, b) 关于样本点 (xi, yi)的几何间隔为：

$\gamma _{i} = y_{i}\left ( \frac{w}{||w||}\cdot x_{i} + \frac{b}{||w||} \right ) \ \ \ \ (7.5)$

定义超平面(w, b)关于训练集 D 的几何间隔为超平面 (w, b)关于 D 中所有样本点 (xi, yi)的几何间隔的最小值，即

$\gamma =\underset{i=1,2,...,N}{min} \ \ \gamma _{i} \ \ \ \ \ (7.6)$

函数间隔和几何间隔的关系为：

$\gamma =\frac{\hat{\gamma }}{||w||} \ \ \ (7.8)$

《统计机器学习-李航》第7.1.3节间隔最大化

间隔最大化的直观解释：对训练集找到几何间隔最大的超平面意味着以充分大的确信度对训练数据进行分类，即对那些最难分的实例点 (距离超平面最近的点)也有足够大的确信度将它们分开。

1 最大间隔分离超平面

如何求得一个几何间隔最大的分离超平面，可表示为以下约束最优化问题：

$\underset{w, b}{max} \ \ \frac{\hat{\gamma }}{||w||} \ \ \ \ \ (7.11) \\ s.t. \ \ \ \ y_{i}(w\cdot x_{i} + b) \geq \hat{\gamma } , \ \ i=1,2,..., N \ \ \ \ (7.12)$

如上一节中解释的那样，由于函数间隔的的等比例改变对最优化问题的不等式约束没有影响，所以取 $\hat{\gamma }$ = 1，带入式 (7.11)，得到最大化 $\frac{1}{||w||}$ ，该式等价于下式，是原始最优化问题：

$\underset{w, b}{min} \ \ \frac{1}{2}||w||^{2} \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \(7.13)\\ s.t. \ \ \ \ y_{i}(w\cdot x_{i}+b)-1\geq 0, \ \ i=1,2,..., N \ \ \ \ (7.14)$

算法 7.1 （线性可分支持向量机学习算法——最大间隔法）

输入：数据集 $D=\{(x_{1}, y_{1}), (x_{2}, y_{2}), .. , (x_{N}, y_{N})\}, x_{i}\in\chi = \mathbb{R}^{n} , \ y_{i}\in Y = \{-1, +1\}, i=1,2,...,N$

输出：最大间隔分离超平面和分类决策函数

1）构建并求解约束最优化问题：

$\underset{w, b}{min} \ \ \frac{1}{2}||w||^{2} \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \(7.13)\\ s.t. \ \ \ \ y_{i}(w\cdot x_{i}+b)-1\geq 0, \ \ i=1,2,..., N \ \ \ \ (7.14)$

求得最优解 $w^{\ast },\ b^{\ast }$

2）得到分离超平面和分类决策函数：

$w^{\ast }\cdot x+\ b^{\ast } = 0\\ f(x) = sign(w^{\ast }\cdot x+\ b^{\ast })$

2 最大间隔分离超平面的存在唯一性

定理7.1 （最大间隔分离超平面的存在唯一性）

若训练集 D 线性可分，则可将训练集 D 中的样本点完全正确分开的最大间隔分离超平面存爱且唯一。

证明参见《统计机器学习》p101

3 支持向量和间隔边界

支持向量是使约束条件式 (7.14)等号成立的点，即

$y_{i}(w\cdot x_{i}+b) - 1 = 0$

6.2 对偶问题

式(6.6)是一个凸二次规划问题 (convex quadratic programming)

凸优化问题指的是如下约束最优化问题：

$\underset{w}{min} \ \ f(w) \ \ \ \ (7.15)\\ s.t. \ \ \ g_{i}(w) \leqslant 0, \ i=1,2, ..., k \ \ \ \ \ (7.16)\\ h_{i}(w) = 0, \ i=1,2, ..., l \ \ \ \ \ (7.17)$

目标函数和约束函数 $g_{i}(w)$ 均是 $\mathbb{R}^{n}$ 上的连续可微的凸函数，约束函数 $h_{i}(w)$ 为 $\mathbb{R}^{n}$

上的仿射函数

使用拉格朗日乘子法，得到其“对偶问题” (dual problem)，通过求解对偶问题得到原始问题 (primal problem)的最优解。

具体来说，对式 (6.6)的每条约束添加拉格朗日乘子 (lagrange multiplier) αi ≥ 0，则可构建该问题的拉格朗日函数如下：

$L(w, b ,\alpha ) = \frac{1}{2} ||w||^{2} + \sum_{i=1}^{m} \alpha _{i}(1-y_{i}(w^{T}x_{i}+b)) \ \ \ \ (6.8) \\ =\frac{1}{2} ||w||^{2} - \sum_{i=1}^{m}\alpha _{i}y_{i} (w\cdot x_{i}+b) + \sum_{i=1}^{m}\alpha _{i}\\ \alpha = (\alpha _{1}, \alpha _{2}, ..., \alpha _{m})$

根据拉格朗日对偶性，原始问题的对偶问题是极大极小问题：

$\underset{\alpha }{max} \ \ \underset{w,b}{min} \ \ L(w,b,\alpha )$

因此，先求解 L(w, b, α)对w，b的极小，再求对α的极大。

1) 求 $\underset{w,b}{min} \ \ L(w,b,\alpha )$ 。

令 L(w, b ,α )对 w 和 b的偏导为零，可得：

$w=\sum_{i=1}^{m}\alpha _{i}y_{i}x_{i} \ \ \ (6.9)\\ 0 = \sum_{i=1}^{m} \alpha _{i}y_{i} \ \ \ \ (6.10)$

将式（6.9）带入式（6.8），并考虑式(6.10)的约束，可得到式（6.6）的对偶问题：

$L(w, b, \alpha )= \frac{1}{2}\sum_{i=1}^{m}\sum_{j=1}^{m}\alpha _{i}\alpha _{j}y_{i}y_{j}(x_{i}\cdot x_{j}) - \sum_{i=1}^{m}\alpha _{i}y_{i} ((\sum_{j=1}^{m}\alpha _{j}y_{j}x_{j})\cdot x_{i} + b ) + \sum_{i=1}^{m}\alpha _{i} \\ =-\frac{1}{2}\sum_{i=1}^{m}\sum_{j=1}^{m}\alpha _{i}\alpha _{j}y_{i}y_{j}(x_{i}\cdot x_{j}) + \sum_{i=1}^{m}\alpha _{i}$

2）最小化上式 L(w, b, α)，即求 $\underset{w, b}{min} \ L(w, b, \alpha )$ 对 α的极大，等价于求解对偶问题：

最低0.47元/天解锁文章

wayaya112

关注

1
点赞
踩
18

收藏

觉得还不错? 一键收藏
0
评论
【机器学习-西瓜书】第6章支持向量机

一种二分类模型，是定义在特征空间上的间隔最大的线性分类器；SVM 的学习策略是间隔最大化，学习算法是求解凸二次规划的最优化算法，可等价于正则化的合页损失函数最小化问题。由简至繁的模型有：线性可分支持向量机( (数据线性可分，硬间隔最大化)、线性支持向量机 (数据近似线性可分，软间隔最大化)、非线性支持向量机 (数据线性不可分，核技巧)。当输入空间为欧氏空间或离散集合、特征空间为希尔伯特空间时，通过核函数将输入从输入空间映射到特征空间得到特征向量之间的内积。该方法称为核技巧，是一.
复制链接

扫一扫