[机器学习] - 支持向量机（一）：硬间隔支持向量机

最新推荐文章于 2024-06-11 14:34:13 发布

ZhuNian的学习乐园

最新推荐文章于 2024-06-11 14:34:13 发布

阅读量1k

点赞数 1

分类专栏：机器学习文章标签：机器学习支持向量机算法

本文链接：https://blog.csdn.net/qq_41709378/article/details/106582742

版权

机器学习专栏收录该内容

22 篇文章 4 订阅

订阅专栏

欢迎转载，转载请注明出处：https://blog.csdn.net/qq_41709378/article/details/106582742
—————————————————————————————————————————————————————

讲到硬间隔支持向量机不得不再提一下感知机模型，也可以看看之前写的一篇博客(已捂脸) 感知机模型，主要是在原文的数学算法基础上，实现编程。感知机模型的核心在于更新参数使得训练集中没有误分类点，算法的具体步骤如下：
在这里插入图片描述
　　也就是说在支持向量机中首先需要给定一个初试值，然后对训练数据集的每一个元素进行训练，当出现误分类点时，需要更新参数： $\left\{ \begin{array}{l} w \leftarrow w + \eta {y_i}{x_i}\\ b \leftarrow b + \eta {y_i} \end{array} \right.$ 直到每个元素都训练完毕，也就是说不会存在误分类点。
　　那么问题来了？
　　是不是对于不同的初始值 $w_0$ , $b_0$ ,最后训练的结果是不是不一样呢？答案是对，采用不同的初始值，解不同，也就是方程的表达形式不一样。由于感知机模型是一种二类分类模型，也就是线性可分模型，与本文讲的硬间隔支持向量机有几分相识(所以拿来引用)。于是，引入了支持向量机(Support Vector Machines)来寻找最优的一个分离超平面。

【引用知乎 @靠靠靠谱大佬的理解】Support Vector Machine, 一个普通的SVM就是一条直线罢了，用来完美划分linearly separable的两类。但这又不是一条普通的直线，这是无数条可以分类的直线当中最完美的，因为它恰好在两个类的中间，距离两个类的点都一样远。而所谓的Support vector就是这些离分界线最近的『点』。如果去掉这些点，直线多半是要改变位置的。可以说是这些vectors（主，点点）support（谓，定义）了machine（宾，分类器）…
在这里插入图片描述
所以谜底就在谜面上啊朋友们，只要找到了这些最靠近的点（Support vector）不就找到了SVM了嘛。
如果是高维的点，SVM的分界线就是平面或者超平面。其实没有差，都是一刀切两块，我就统统叫直线了。

１　Concept （相关概念）

linearly separable （线性可分）： 如上图中的两组数据，它们之间已经分的足够开了，因此很容易就可以在图中画出一条直线将两组数据点分开。在这种情况下，这组数据就被称为线性可分数据。也就是本文要讲述的硬间隔支持向量机。

separating hyperplane（分隔超平面）： 上述将数据集分隔开来的直线称为分隔超平面。

hyperplane（超平面）： 在上面给出的例子中，由于数据点都在二维平面上，所以此时分隔超平面就只是一条直线。但是，如果所给的数据集是三维的，那么此时用来分隔数据的就是一个平面。显而易见，更高纬度的情况可以依此类推。如果数据是 1024 维的，那么就需要一个 1023 维的某某对象（不是你们的男（女）票）来对数据进行分隔。这个 1023 维的某某对象到底应该叫什么呢？ N-1 维呢？该对象被称为超平面，也就是分类的决策边界。分布在超平面一侧的所有数据都属于某个类别，而分布在另一侧的所有数据则属于另一个类别。【这里补充说下：如果一个N-1维的数据集需要分类，需要将数据的维度"拍"到N维进行分类，即用N-1维进行分类；这个“拍”的过程叫：核函数】

margin（间隔）： 我们希望能通过上述的方式来构建分类器，即如果数据点离决策边界越远，那么其最后的预测结果也就越可信。既然这样，我们希望找到离分隔超平面最近的点，确保它们离分隔面的距离尽可能远。这里所说的点到分隔面的距离就是间隔。我们希望间隔尽可能地大，这是因为如果我们犯错或者在有限数据上训练分类器的话，我们希望分类器尽可能健壮。

支持向量（support vector）： 就是上面所说的离分隔超平面最近的那些点。【图画直线两边的一个苹果🍎、一个香蕉🍌】。

分类器： 分类器就是给定一个样本的数据，判定这个样本属于哪个类别的算法。例如在股票涨跌预测中，我们认为前一天的交易量和收盘价对于第二天的涨跌是有影响的，那么分类器就是通过样本的交易量和收盘价预测第二天的涨跌情况的算法。

特征： 在分类问题中，输入到分类器中的数据叫做特征。以上面的股票涨跌预测问题为例，特征就是前一天的交易量和收盘价。

线性分类器： 线性分类器是分类器中的一种，就是判定分类结果的根据是通过特征的线性组合得到的，不能通过特征的非线性运算结果作为判定根据。还以上面的股票涨跌预测问题为例，判断的依据只能是前一天的交易量和收盘价的线性组合，不能将交易量和收盘价进行开方，平方等运算。

２　函数间隔及几何间隔

函数间隔： 一般来说，一个点距离分离超平面的远近可以表示分类预测的确信程度。在超平面wx+b=0确定的情况下，|wx+ b|能够相对地表示点x距离超平面的远近。而wx+b的符号与类标记y的符号是否一致能够表示分类是否正确。所以可用量y(wx+ b)来表示分类的正确性及确信度，这就是函数间隔( functional margin)。

于是定义超平面（w，b）关于样本点（ $x_i，y_i$ ）的函数间隔为：
　　　　　　　　　　　　　　　　　　　　 ${{\hat \gamma }_i} = {y_i}\left( {w \cdot {x_i} + b} \right)$
　　　　　　　　　　　　　　　　　　　　
最优超平面（w，b）是关于训练数据集T的函数间隔为超平面(w,b)关于T中所有样本点（ $x_i，y_i$ ）的函数间隔之最小值，即
　　　　　　　　　　　　　　　　　　　　 ${{\hat \gamma }_i} = \mathop {\min }\limits_{i = 1,...,N} {{\hat \gamma }_i}$
　　　　　　　　　　　　　　　　　　　　
而函数间隔不能正常反应点到超平面的距离【函数间隔是数据 $f(x)={y_i}\left( {w \cdot {x_i} + b} \right)$ 的值，表示分类预测的正确性及确信度】，因为当我们等比例扩大w和b的时候，函数间隔也会扩大相应的倍数。因此，我们引入几何间隔。

几何间隔：就是在函数间隔的基础下，在分母上对w加上约束（这个约束有点像归一化，实质上是除以w的第二范数），定义为γ：
　　　　　　　　　　　　　　　　　　　 ${{\gamma }_i} = {y_i}\left( {\frac{w}{{\left\| w \right\|}} \cdot {x_i} + \frac{b}{{\left\| w \right\|}}} \right)$
　　　　　　　　　　　　　　　　　　　
其实参考点到直线的距离，我们可以发现几何间隔就是高维空间中点到超平面的距离，才能真正反映点到超平面的距离。

几何间隔是在空间中的距离，就是下图中的数据点到超平面的直线距离。

３　如何间隔最大化

如下图，我们的分类超平面（分类线）为 ${W^T}X + b = 0$
在这里插入图片描述
X为数据，W和b是训练参数。它有两条间隔线 ${W^T}X + b = -1$ ， ${W^T}X + b = 1$ 我们的目标是正确分类，就是要让所有的点处于自己那一侧，且不在间隔内出现， 即对所有点：
　　　　　　　　　　　　　　　　　 $\left\{ \begin{array}{l} {w^T}{x_i} + b \ge + 1,{\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {y_i} = + 1\\ {w^T}{x_i} + b \le - 1,{\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {y_i} = - 1 \end{array} \right.$ ．．．（１）

根据高中数学点到直线距离的知识，样本空间中任意点到超平面的距离可写为：
　　　　　　　　　　　　　　　　　　　　　 $\gamma= \frac{{\left| {{w^T}x + b} \right|}}{{\left\| w \right\|}}$ ．．．（２）
　　　　　　　　　　　　　　　　　　　　　
我们接着可以看图直观理解下，是不是发现只有处于间隔线上的点对间隔线有影响，如下图中的一个正点两个负点。是的，这些点被称为支持向量，数据集中只有支持向量对超平面和间隔的选取有影响。而对于这些点来说 $\left| {{W^T}X + b} \right| = 1$ ，所以我们的r可以简化为：
　　　　　　　　　　　　　　　　　　　　　　 $\gamma = \frac{1}{{\left\| w \right\|}}$ ．．．（３）
　　　　　　　　　　　　　　　　　　　　　　
那么我们现在的优化目标已经出来了，即在1的条件下，使3的 $\gamma$ 值最大。

在优化条件1中，要使得函数间隔稳定地大于等于1（逻辑回归的函数间隔为0），那么我们为什么要让函数间隔大于等于1，为什么不能2，不能3？

因为其实“1”这个值的由来是："1"是以支持向量为标准，函数间隔两边同时除以 ${{\hat \gamma }_i}$ ，(前提线性可分的，所有一定存在一个超平面，也就意味着 ${{\hat \gamma }_i\ne0}$ )得到的。函数间隔p的取值并不影响最优化问题的解，事实上，假设将w和b按比例改变为 $\lambda w$ 和 $\lambda b$ ，这时函数间隔成为 ${{\lambda\hat \gamma }_i}$ 。函数间隔的这一改变对上面最优化问题的不等式约束没有影响，对目标函数的优化也没有影响，也就是说，它产生一个等价的最优化问题。这样，就可以取 ${{\hat \gamma }=1}$ 。将 ${{\hat \gamma }=1}$ 代入上面的最优化问题，注意到最大化 $\frac{1}{{\left\| w \right\|}}$ 和最小化 $\frac{1}{2}{\left\| w \right\|^2}$ 是等价的。目标函数的转化方便了后面使用拉格朗日乘子法。

更深入了解这个概念可以看机器学习SVM中关于函数间隔为什么可以设置为1？

４　学习算法-最大间隔法

在上文提到最大化 $\frac{1}{{\left\| w \right\|}}$ 和最小化 $\frac{1}{2}{\left\| w \right\|^2}$ 是等价的【视为目标一】。那么在SVM的目标（硬间隔）训练中也要保证训练集的正确分类，即约束条件【也可以视为目标二】。
有两个目标：第一个是使间隔最大化，第二个是使样本正确分类，由此推出目标函数：
　　　　　　　　　　　　　　　　　　　　目标一： $\mathop {\min }\limits_{w,b} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} \frac{1}{2}{\left\| w \right\|^2}$
　　　　　　　　　　　　　　　　　　　　目标二： ${y_i}\left( {{w^T}{x_i} + b} \right) \ge 1{\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} i = 1....N$
　　　　　　　　　　　　　　　　　　　　
　　稍微解释一下，w是超平面参数，目标一是从上文提到的最优目标，目标二要求的是正确分类的点都在支持向量的外侧，为了后面的推导方便。有了两个目标，写在一起，就变成了svm的终极目标：
　　　　　　　　　　　　　　　　　　　　　　　　 $\mathop {\min }\limits_{w,b} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} \frac{1}{2}{\left\| w \right\|^2}$
　　　　　　　　　　　　　　　　　　　 $s.t.{\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {y_i}\left( {{w^T}{x_i} + b} \right) \ge 1{\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} i = 1....N$

于是，构造线性可分支持向量机学习算法的算法步骤如下：

在这里插入图片描述

到了这里，已经介绍了定义的目标函数以及约束条件，想想怎么能进行求解上述不等式约束的优化问题呢？得到想要的最优w,b?
　　第一时间想到用拉格朗日乘子法，如果在学习过程中接触过这个方法，会有印象【ps:会发现它求解的是等式约束的优化问题】，也就是说对于含有等式约束的优化问题，拉格朗日乘子法，构造拉格朗日函数，令偏导为0求解，最后求解最优值。链接可以看看：拉格朗日乘子法（自己总结一些要点）
　　
　　那么问题来了，对于不等式约束条件的优化问题如何进行求解，答案是：利用KKT条件求解。所以，对于含有不等式约束的优化问题，同样要构造拉格朗日函数。
　　篇幅很多，这里可以查看拉格朗日乘子法和KKT条件：讲到了无约束优化的拉格朗日乘子法和KKT条件。加深一下理解。

５　学习的对偶算法

首先要明确，对偶问题的解不一定直接等于原问题的解（弱对偶），但是，对偶问题有两点性质。
1.1 　满足某些条件时，对偶问题直接等于原问题的解（强对偶）
1.2 　无论原始问题是否是凸的，对偶问题都是凸优化问题
显然，在某些情况下，直接对对偶问题求解可以得到原问题的解，而且对偶问题是凸优化，易于求解。所以利用对偶来求解是很有用的。
　　
　　首先构造拉格朗日函数，为此，对每个不等式约束【目标二】引入拉格朗日乘子 $a_i≥0,i=1..N$ ，定义拉格朗日函数为：
　　　　　　　　　　　　　　　　 $L\left( {w,b,\alpha } \right) = \frac{1}{2}{\left\| w \right\|^2} + \sum\limits_{i = 1}^N {{\alpha _i}\left( {1 - {y_i}\left( {{w^T}{x_i} + b} \right)} \right)}$

如何定义查看：拉格朗日乘子法和KKT条件

其中， $\alpha = {\left( {{\alpha _1},{\alpha _2},...{\alpha _N}} \right)^T}$ 为拉格朗日乘子向量。
　　根据拉格朗日对偶性，在原始问题是极小极大问题时，原始问题的对偶问题是极大极小问题：
　　　　　　　　　　　　　　　　　　　　　　　　 $\mathop {\max }\limits_\alpha \mathop {\min }\limits_{w,b} L\left( {w,b,\alpha } \right)$
　　所以，为了得到对偶问题的解，需要先求 $L(w,b,\alpha )$ 对w,b的极小，再求对 $\alpha$ 的极大。
　　(1) 先求L(w,b,a)对w,b的极小 ： $\mathop {\min }\limits_{w,b} L\left( {w,b,\alpha } \right)$
在这里插入图片描述
将上式 $\sum\limits_{i = 1}^N {\alpha _i} {y_i}{x_i}$ 带回到拉格朗日函数 $L\left( {w,b,\alpha } \right) = \frac{1}{2}{\left\| w \right\|^2} + \sum\limits_{i = 1}^N {{\alpha _i}\left( {1 - {y_i}\left( {{w^T}{x_i} + b} \right)} \right)}$ 中得到，此时得到的是该函数的最小值（目标函数是凸函数）。
代入后，化简过程如下：
　　　　　　　　　　　　　　　　　 $L\left( {w,b,\alpha } \right) = \frac{1}{2}{\left\| w \right\|^2} - \sum\limits_{i = 1}^N {{\alpha _i}\left( {{y_i}\left( {{w^T}{x_i} + b} \right) - 1} \right)}$
　　　　　　　　　　　　　　　　　　　　　　 $\frac{1}{2}{w^T}w - \sum\limits_{i = 1}^N {{\alpha _i}{y_i}} {w^T}{x_i} - \sum\limits_{i = 1}^N {{\alpha _i}{y_i}} b + \sum\limits_{i = 1}^N {{\alpha _i}}$
　　　　　　　　　　　　　　　　　　　　　　 $\frac{1}{2}{w^T}\sum\limits_{i = 1}^N {{\alpha _i}} {y_i}{x_i} - {w^T}\sum\limits_{i = 1}^N {{\alpha _i}{y_i}} {x_i} - \sum\limits_{i = 1}^N {{\alpha _i}{y_i}} b + \sum\limits_{i = 1}^N {{\alpha _i}}$
　　　　　　　　　　　　　　　　　　　　　　 $\frac{1}{2}{w^T}\sum\limits_{i = 1}^N {{\alpha _i}} {y_i}{x_i} - \sum\limits_{i = 1}^N {{\alpha _i}{y_i}} b + \sum\limits_{i = 1}^N {{\alpha _i}}$
　　　　　　　　　　　　　　　　　　　　　　 $\frac{1}{2}{w^T}\sum\limits_{i = 1}^N {{\alpha _i}} {y_i}{x_i} - b\sum\limits_{i = 1}^N {{\alpha _i}{y_i}} + \sum\limits_{i = 1}^N {{\alpha _i}}$
　　　　　　　　　　　　　　　　　　　　　　 $\frac{1}{2}{\left( {\sum\limits_{i = 1}^N {{\alpha _i}} {y_i}{x_i}} \right)^T}\sum\limits_{i = 1}^N {{\alpha _i}} {y_i}{x_i} - b\sum\limits_{i = 1}^N {{\alpha _i}{y_i}} + \sum\limits_{i = 1}^N {{\alpha _i}}$
　　　　　　　　　　　　　　　　　　　　　　 $\frac{1}{2}\sum\limits_{j = 1}^N {{\alpha _j}} {y_j}{\left( {{x_j}} \right)^T}\sum\limits_{i = 1}^N {{\alpha _i}} {y_i}{x_i} - b\sum\limits_{i = 1}^N {{\alpha _i}{y_i}} + \sum\limits_{i = 1}^N {{\alpha _i}}$
　　　　　　　　　　　　　　　　　　　　　　 $\frac{1}{2}\sum\limits_{i = 1}^N {\sum\limits_{j = 1}^N {{\alpha _i}{\alpha _j}{y_i}} } {y_j}{x_i}{\left( {{x_j}} \right)^T} - b\sum\limits_{i = 1}^N {{\alpha _i}{y_i}} + \sum\limits_{i = 1}^N {{\alpha _i}}$

最后得到
　　　　　　　　　　　　　　　　　　　　 $\frac{1}{2}\sum\limits_{i = 1}^N {\sum\limits_{j = 1}^N {{\alpha _i}{\alpha _j}{y_i}} } {y_j}{x_i}{\left( {{x_j}} \right)^T} - b\sum\limits_{i = 1}^N {{\alpha _i}{y_i}} + \sum\limits_{i = 1}^N {{\alpha _i}}$

由于最后一项是 $\sum\limits_{i = 1}^N {\alpha _i} {y_i}=0$ ，并且将向量内积 ${x_i}{\left( {{x_j}} \right)^T}$ 表示为 $\left( {{x_i} \cdot {x_j}} \right)$
因此简化为
　　　　　　　　　　　　　　　　　　 $\mathop {\min }\limits_{w,b} L\left( {w,b,\alpha } \right) = - \frac{1}{2}\sum\limits_{i = 1}^N {\sum\limits_{j = 1}^N {{\alpha _i}{\alpha _j}{y_i}} } {y_j}\left( {{x_i}\cdot{x_j}} \right) + \sum\limits_{i = 1}^N {{\alpha _i}}$

(2) 求 $\mathop {\min }\limits_{w,b} L\left( {w,b,\alpha } \right)$ 对 $\alpha$ 的极大值，即是对偶问题
在这里插入图片描述
　　将式(7.21)的目标函数由求极大转换成求极小，就得到下面与之等价的对偶最优化问题。

　　将原始的优化问题转化成了对偶问题的优化问题。

　　根据定理C.3，KKT 条件成立，得到以下定理：设 $\alpha^*= {\left( {{\alpha _1^*},{\alpha _2^*},...{\alpha _N^*}} \right)^T}$ 是对偶最优化问题 (7.22) ~ (7.24) 的解，则存在下标 $j$ ，使得 $j > 0$ ,并可按下式可以求得原始最优化问题(7.13) ~ (7.14)的解 $w^*，b^*$ 。
　　　　　　　　　　　　　　　　　　　　　　　　 ${w^*} = \sum\limits_{i = 1}^N {\alpha _i^*} {y_i}{x_i}$
　　　　　　　　　　　　　　　　　　　　　　 ${b^*} = {y_i} - \sum\limits_{i = 1}^N {\alpha _i^*} {y_i}\left( {{x_i} \cdot {x_j}} \right)$
　　
　　综上所述，对于给定的线性可分训练数据集，可以首先求对偶问题(7.22)~(7.24)的解 $\alpha^*$ ;再利用式(7.25)和式(7.26)求得原始问题的解 $w^*，b^*$ ；从而得到分离超平面及分类决策函数。这种算法称为线性可分支持向量机的对偶学习算法，是线性可分支持向量机学习的基本算法。
　　补充一下，通过对偶问题求解的 $\alpha^*$ 是一组向量，代表着数据集中每个点约束条件的拉格朗日乘子系数，只有支持向量的系数 $\alpha_i^*$ 大于零，从而只有支持向量对求解 $w^*，b^*$ 有影响，也就是说是支持向量影响了解 $w^*，b^*$ 。

6　参考资料

1：http://bytesizebio.net/2014/02/05/support-vector-machines-explained-well/
2：https://zhuanlan.zhihu.com/p/76946313
3：https://www.cnblogs.com/liaohuiqiang/p/7818448.html
4：李航《统计学习方法》