第 7 章支持向量机

最新推荐文章于 2020-07-10 01:53:47 发布

芒骁

最新推荐文章于 2020-07-10 01:53:47 发布

阅读量737

点赞数

本文链接：https://blog.csdn.net/qq_44587855/article/details/104040912

版权

支持向量机（support vector machine, SVM）是一种二类分类模型，它的基本模型是定义在特征空间上的间隔最大的线性分类器，间隔最大使它有别于感知机；

支持向量机还包括核技巧，这使它成为实质上的非线性分类器，支持向量机的学习策略就是间隔最大化，可形式化为一个求解凸二次规划（convex quadratic programming）的问题，也等价于正则化的合页损失函数的最小化问题，支持向量机的学习算法是求解凸二次规划的最优化算法。

支持向量机学习方法包含创建由简至繁的模型。

线性可分支持向量机、线性支持向量机及非线性支持向量机。

简单模型是复杂模型的基础，也是复杂模型的特殊情况。

当训练数据线性可分时，通过硬间隔最大化（hard margin maximization），学习一个线性的分类器，即线性可分支持向量机（也叫硬间隔支持向量机）。
当训练数据近似线性可分时，通过软间隔最大化，也学习一个线性的分类器，即线性支持向量机，又称为软间隔支持向量机；
当训练数据线性不可分时，通过使用核技巧（kenel trick）及软间隔最大化，学习非线性支持向量机。

当输入空间为欧式空间或者离散集合、特征空间为希尔伯特空间时，核函数（kernel function）表示将输入从输入空间映射到特征空间得到的特征向量之间的内积。通过核函数可以学习非线性支持向量机，等价于隐式地在高维的特征空间中学习线性支持向量机（重点），这样的方法称为核技巧。

核方法是比支持向量机更为一般的机器学习方法。

7.1 线性可分支持向量机与硬间隔最大化

7.1.1 线性可分支持向量机

考虑一个二元分类问题，假设输入空间与特征空间为两个不同的空间，输入空间为欧氏空间或离散集合。 特征空间为欧式空间或希尔伯特空间。

线性可分支持向量机、线性支持向量机假设这两个空间的元素一一对应，并将输入空间中的输入映射为特征空间的特征向量，
非线性支持向量机利用一个从输入空间到特征空间的非线性映射将输入映射为特征向量。

所以输入都由输入空间转换到特征空间，支持向量机的学习是在特征空间进行的。

假设给定有一个特征空间的训练数据集 T。 x_i ∈ Rⁿ ， y_i = {+1， -1} , x_I 为第 i 个特征向量，也称为实例， y_i 为 x_i 的类标记，当 y_I = +1 时，称 x_i 为正例，当 y_I = -1 时，称 x_i 为负例，（x_i, y_i）称为样本点。再假设训练数据集是线性可分的。！！！

学习的目标是在特征空间中找到一个分离超平面，能将实例分到不同的类，分离超平面将特征空间划分为两部分，一部分是正类，一部分是负类，法向量指向的一侧时正类，另一侧是负类。

一般的，当训练数据线性可分时，存在无穷个分离超平面可将两类数据正确分开（没错，用膝盖想想都知道）。

感知机利用误分类最小的策略，求得分离超平面，不过这时的解有无穷多个，线性可分支持向量机利用间隔最大化求最优分离超平面（相当于在原有的基础上增肌一个约束），这时，解是唯一的。

定义 7.1 （线性可分支持向量机）给定线性可分训练数据集，通过间隔最大化或等价地求解相应的凸二次规划问题学习得到的分离超平面为
在这里插入图片描述
以及相应的分类决策函数：

称为线性可分支持向量机。

考虑如下图所示的二维特征空间中的分类问题，训练数据线性可分，这时有许多直线能将两类数据正确划分，线性可分支持向量机对应着两类数据正确划分并且间隔最大的直线。在这里插入图片描述
间隔最大及相应的约束最优化问题将在下面描述，下面介绍函数间隔和几何间隔的概念。

7.1.2 函数间隔和几何间隔
一般来说，一个点距离分离超平面的远近可以表示分类预测的确信程度，在超平面 w • x + b = 0 确定的情况下， | w • x + b | 能够相对地表示点 x 距离超平面的远近，而 w • x + b的符号与类标记及 y 的符号是否一致能够表示分类是否正确，所以可用量 y(w • x + b) 来表示分类的正确性和确信度，这就是函数间隔的概念。

函数间隔可以表示分类预测的正确性及确信度，但是选择分离超平面时，只有函数间隔还不够， 因为只要成比例地改变 w 和 b ，例如将它们改为 2w 和 2b（w • x , w 系数有影响），超平面并没有改变，而函数间隔却是原来的 2 倍，我们需要对分离超平面的法向量做一些约束，如规范化， || w || = 1,使得间隔是确定的，这时函数间隔成为几何间隔（geometric margin）。

在这里插入图片描述
如图所示，给出了超平面 (w,b) 及法向量 w ,点 A表示某一实例 x_i ，其类标记为 y_i = +1, 点 A 与超平面（w,b）的距离由线段 AB给出，记作γ_i。

其中， || w || 为 w 的 L₂ 范数，这时点A 在超平面正的一侧的情形，如果点 A 在超平面负的一侧，即 y_i = -1 ，那么点和超平面的距离为：在这里插入图片描述
一般的，当样本点（x_i, y_I）被超平面（w, b ）正确分类时，点 x_i 与超平面（w,b）的距离是

这就是几何间隔。