线性可分支持向量机与硬间隔最大化

最新推荐文章于 2022-11-14 18:37:51 发布

futurewq

最新推荐文章于 2022-11-14 18:37:51 发布

阅读量467

点赞数

分类专栏： AI Algorithm machine learning 文章标签：机器学习算法人工智能

本文链接：https://blog.csdn.net/wangrongrongwq/article/details/120444071

版权

AI 同时被 3 个专栏收录

20 篇文章 0 订阅

订阅专栏

machine learning

13 篇文章 0 订阅

订阅专栏

Algorithm

4 篇文章 0 订阅

订阅专栏

线性可分支持向量机

给定线性可分训练数据集，通过间隔最大化或等价地求解相应地凸二次规划问题学习得到的分离超平面为

$w\cdot x+b=0$

以及相应的分类决策函数

$f(x)=sign(w\cdot x+b)$

称为线性可分支持向量机

函数间隔

一般来说，一个点距离分离超平面的远近可以表示分类预测的确信程度。在超平面 $w\cdot x+b=0$ 确定的情况下， $\left | w \cdot x + b \right |$ 能够相对地表示点x距离超平面的远近，而 $w \cdot x + b$ 的符号与类标记y的符号是否一致能够表示分类是否正确。所以可用量 $y(w \cdot x + b)$ 来表示分类的正确性及确信度，这就是函数间隔。

函数间隔的定义为：

对于给定的训练数据集T和超平面(w,b),定义超平面(w,b)关于样本点 $(x_i,y_i)$ 的函数间隔为

$\widehat{\gamma _i}={y_i}(w \cdot {x_i} + b)$

定义超平面(w,b)关于训练数据集T的函数间隔为超平面(w,b)关于T中所有样本点 $(x_i,y_i)$ 的函数间隔之最小值，即

$\widehat{\gamma }=\underset{i=1,...,N}{min}\widehat{\gamma _i}$

函数间隔可以表示分类预测的正确性及确信度。但是选择分离超平面时，只有函数间隔还不够。因为只要成比例地改变w和b，例如将它们改为2w和2b，超平面并没有改变，但函数间隔却成为原来的2倍。这一事实启示我们，可以对分离超平面的法向量w加某些约束，如规范化， $\left \| w \right \|=1$ ，使得间隔是确定的。这时函数间隔成为几何间隔。

几何间隔

对于给定的训练数据集T和超平面(w,b)，定义超平面(w,b)关于样本点 $(x_i,y_i)$ 的几何间隔为

$\gamma _i={y_i}(\frac{w}{\left \| w \right \|} \cdot {x_i}+\frac{b}{\left \| w \right \|})$

定义超平面(w,b)关于训练数据集T的几何间隔为超平面(w,b)关于T中所有样本点 $(x_i,y_i)$ 的几何间隔之最小值，即

$\gamma =\underset{i=1,...,N}{min}{\gamma_i}$

超平面(w,b)关于样本点 $(x_i,y_i)$ 的几何间隔一般是实例点到超平面的带符号的距离，当样本点被超平面正确分类时就是实例点到超平面的距离。

从函数间隔和几何间隔的定义可知，函数间隔和几何间隔有下面的关系：

$\gamma_i=\frac{\widehat{\gamma_i}}{\left \| w \right \|}$

$\gamma=\frac{\widehat{\gamma}}{\left \| w \right \|}$

间隔最大化

支持向量机学习的基本想法是求解能够正确划分训练数据集并且几何间隔最大的分离超平面。对线性可分的训练数据集而言，线性可分分离超平面有无穷多个(等级于感知机)，但是几何间隔最大的分离超平面是唯一的。这里的间隔最大化又称为硬间隔最大化。

间隔最大化的直观解释是：对训练数据集找到几何间隔最大的超平面意味着以充分大的确信度对训练数据进行分类。也就是说，不仅将正负实例点分开，而且对最难分的实例点(离超平面最近的点)也有足够大的确信度将它们分开。这样的超平面应该对未知的新实例有很好的分类预测能力。

线性可分支持向量机学习的最优化问题

$\underset{w,b}{min}\frac{1}{2}{\left \| w \right \|}^2$

$s.t. {y_i}(w \cdot {x_i} + b) -1\geqslant 0,i=1,2,...,N$

线性可分支持向量机学习算法-最大间隔法

输入：线性可分训练数据集 $T={(x_1,y_1),(x_2,y_2),...,(x_N,y_N)}$ ，其中， ${x_i}\in \chi ={R^n},{y_i}\in{Y}={-1,+1},i=1,2,...,N$

输出：最大间隔分离超平面和分类决策函数

(1)构造并求解约束最优化问题：

$\underset{w,b}{min}\frac{1}{2}{\left \| w \right \|}^2$

$s.t. {y_i}(w \cdot {x_i} + b) -1\geqslant 0,i=1,2,...,N$

求得最优解 ${w^*},{b^*}$

(2)由此得到分离超平面：

${w^*}\cdot x + {b^*}=0$

分类决策函数

$f(x)=sign({w^*}\cdot x + {b^*})$

最大间隔分离超平面的存在唯一性

若训练数据集T线性可分，则可将训练数据集中的样本点完全正确分开的最大间隔分离超平面存在且唯一。

支持向量和间隔边界

在线性可分情况下，训练数据集的样本点中与分离超平面距离最近的样本点的实例称为支持向量。支持向量是使约束条件等号成立的点，即

${y_i}(w \cdot {x_i} + b) -1 = 0$

对 $y_i=+1$ 的实例点，支持向量在超平面

$H_1:w\cdot x + b = 1$

上，对 $y_i=-1$ 的负例点，支持向量在超平面

$H_2:w\cdot x + b = -1$ 上。

如图7.3所示，在上的点就是支持向量。

在决定分离超平面时只有支持向量起作用，而其他实例点并不起作用。如果移动支持向量将改变所求的解；但是如果在间隔边界以外移动其他实例点，甚至去掉这些点，则解是不会改变的。由于支持向量在确定分离超平面中起着决定性作用，所以将这种分类模型称为支持向量机。支持向量的个数一般很少，所以支持向量机由很少的“重要的”训练样本确定。