【基础算法】支持向量机，看这一篇就够了

最新推荐文章于 2020-04-01 21:30:07 发布

七彩吞天蟒

最新推荐文章于 2020-04-01 21:30:07 发布

阅读量366

点赞数 1

分类专栏：机器学习支持向量机算法

本文链接：https://blog.csdn.net/weixin_42057852/article/details/103687703

版权

机器学习同时被 3 个专栏收录

8 篇文章 3 订阅

订阅专栏

算法

2 篇文章 0 订阅

订阅专栏

支持向量机

1 篇文章 0 订阅

订阅专栏

SVM支持向量机

理解

要理解支持向量机的基本原理，首先要从宏观上认识到，支持向量机是一个线性分类器，其与其他分类器的区别在于其决策边界，支持向量机的决策边界是对样本求解的最大边距超平面（maximum-margin hyperplane），所以最终是为了找到这个超平面，有了这个决策边界，便是我们要做的模型，从而可以进行分类了。

下面我们从样本数据的角度，对支持向量机进行深度的剖析：

1. 存在这样一个超平面

如，对于一个二分类数据集
$\{(x_i, \quad y_i\}_{i=1}^{N} \tag{1.1}$
其中
$w^Tx_i + b \tag{1.2}$

$y_i= \begin{cases} +1& {y \ge 0}\\ -1& {y < 0} \end{cases}\tag{1.3}$

所以：
$y_i \in \{+1,-1\} \tag{1.4}$
由于数据是线性可分的，则肯定存在一个超平面，使得：
$w^T x_i + b = 0 \tag{1.5}$

2. 样本函数距离与几何间隔

由上面可得样本函数距离
$||w^Tx_i + b|| = y_i (w^Tx_i + b) \tag{2.1}$
可以理解为数据点到超平面的函数距离，但是由于w和b可以成倍的缩放，超平面并没有变化，而||y||却变化了，所以定义几何间隔；
$\gamma_i =\dfrac{||y||}{||w||}= \dfrac{||w^Tx_i+b||}{||w||} = \dfrac{y_i (w^Tx_i + b)}{||w||} \tag{2.2}$
则有最短距离
$\gamma = min \quad \gamma_i \tag{2.3}$
由于不同的超平面最短距离都会不一样，所以对于优化这个最短距离来说，寻找一对w和b，使得r最大，这这对w和b，就是我们要求的超平面。

则任务可以写成：
$\quad \quad max \quad \gamma \tag{2.4}$

$\quad \quad \quad \gamma \quad \le \quad \dfrac{y_i (w^Tx_i + b)}{||w||} \tag{2.5}$

3. 问题的推导与优化

$\quad \gamma ·{||w||}\quad \le \quad {y_i (w^Tx_i + b)} \tag{3.1}$

为了方便推导和优化，可以令函数距离为1
$\quad \gamma ·{||w||}= 1 \tag{3.2}$
则：
$\gamma = \frac{1}{||w||} \tag{3.3}$
所以最大化 $r$ 等价于：
$\quad \frac{1}{||w||} \tag{3.4}$
所以，以上的任务可以等价的写成：
$\quad\quad\quad\quad\quad max \quad \frac{1}{||w||^2} \tag{3.5}$

$\quad \quad \quad \quad y_i(w^Tx_i+b) \ge 1 \tag{3.6}$

这便是我们要求的函数表达式。

其中：
$y_i(w^Tx_i+b) = 1 \tag{3.7}$
的样本点，都叫做支持向量。

4. 转变成凸优化问题

为了能够找到最大分割的这个超平面，我们可以把上述的函数写成凸优化问题：
$\quad\quad\quad min\quad \frac{1}{2}||w||^2 \tag{4.1}$

$\quad\quad\quad 1 - y_i(w^Tx_i + b) \le 0 \tag{4.2}$

使用拉格朗日乘数法，则上面的表达式可以写成的朗格朗日函数为
$\Lambda (w,b,\lambda) =\frac{1}{2}||w||^2 + \sum\limits_{i=1}^{N}\lambda_i(1-y_i(w^Tx_i + b))\tag{4.3}$
其中λ为朗格朗日乘数，且：
$\lambda_i \ge 0$
计算 $\Lambda (w,b,\lambda)$ 关于 $w$ 和 $b$ 的导数，并且令导数为零，得到：
$\sum^{N}_{i=1}\lambda_iy_ix_i = 0 \tag{4.4}$

$\sum^{N}_{i=1}\lambda_iy_i = 0 \tag{4.5}$

将(4.4),(4.5)代入(4.3)：
$\Lambda (w,b,\lambda) =\frac{1}{2}||w||^2 + \sum\limits_{i=1}^{N}\lambda_i(1-y_i(w^Tx_i + b))\tag{4.6}\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad\\ =\frac{1}{2}w^Tw + \sum\limits_{i=1}^{N}\lambda_i - \sum\limits_{i=1}^{N}\lambda_iy_iw^Tx_i - \sum\limits_{i=1}^{N}\lambda_iy_ib\quad\quad\quad\quad\quad\quad\quad\quad\\ = \frac{1}{2}w^T\sum\limits_{i=1}^{N}\lambda_iy_ix_i + \sum\limits_{i=1}^{N}\lambda_i - \sum\limits_{i=1}^{N}\lambda_iy_iw^Tx_i - \sum\limits_{i=1}^{N}\lambda_iy_ib\quad\quad\quad\quad\\ = \frac{1}{2}w^T\sum\limits_{i=1}^{N}\lambda_iy_ix_i-w^T\sum\limits_{i=1}^{N}\lambda_iy_ix_i + \sum\limits_{i=1}^{N}\lambda_i - \sum\limits_{i=1}^{N}\lambda_iy_ib\quad\quad\quad\quad\\ = -\frac{1}{2}w^T\sum\limits_{i=1}^{N}\lambda_iy_ix_i+ \sum\limits_{i=1}^{N}\lambda_i\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad\\ = -\frac{1}{2}\sum\limits_{i=1}^{N}(\lambda_iy_ix_i)^T\sum\limits_{i=1}^{N}\lambda_iy_ix_i+ \sum\limits_{i=1}^{N}\lambda_i\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad\\ = -\frac{1}{2}\sum\limits_{i=1}^{N}\lambda_iy_i(x_i)^T\sum\limits_{i=1}^{N}\lambda_iy_ix_i+ \sum\limits_{i=1}^{N}\lambda_i\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad\\$
最终得到拉格朗日对偶函数,：
$\Gamma(\lambda) = -\frac{1}{2}\sum^{N}_{i=1}\sum^{N}_{j=1}\lambda_i\lambda_jy_iy_jx_i^Tx_j + \sum^{N}_{i=1}\lambda_i \tag{4.7}$

总结：若求w，b，λ值，则分为三步

固定λ，求Λ的极小值，方法是对w，b求偏导为零；
代入w，b，此时是Λ关于λ的函数了，求Λ的极大值；
利用SMO 算法求解对偶问题中的拉格朗日乘子λ，从而代入求出w，b的具体值；

所有上面的假设成立，都是数据是线性可分的

如果数据线性不可分，通过构建核函数，把数据映射到更高维的空间，使得数据线性可分；

如果数据里存在噪声，通过引入松弛变量，来对数据进行处理。

七彩吞天蟒

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
【基础算法】支持向量机，看这一篇就够了

SVM支持向量机支持向量机（Support Vector Machine, SVM）是一类按监督学习（supervised learning）方式对数据进行二元分类的广义线性分类器（generalized linear classifier），其决策边界是对学习样本求解的最大边距超平面（maximum-margin hyperplane）对于一个二分类数据集D={(xi,yi}i=1ND ...
复制链接

扫一扫