线性支持向量机

最新推荐文章于 2024-06-11 15:17:35 发布

Jender_Sean

最新推荐文章于 2024-06-11 15:17:35 发布

阅读量2k

点赞数 4

文章标签：机器学习

本文链接：https://blog.csdn.net/ZHT2016iot/article/details/118363096

版权

1. 线性SVM模型

线性支持向量机的思想非常朴素：用一个超平面将两类数据分割开来。
在这里插入图片描述

如上图，这样的超平面有无数个，选择哪个超平面更好呢？从上图可以看出，平面①会将红色的两个数据分错，平面②则不会，这是因为平面②将两边的间隔分得更大。所以，我们应该选择将两边间隔分割得最大的超平面。

设超平面为 $w^Tx+b=0$ ,类别标记 $y_i\in[-1,1]$ 。现将超平面上下平移，直到有数据穿过为止，此时 $w^Tx_i+b=1或w^Tx_i+b=-1$ 。如下图：
在这里插入图片描述
被穿过的数据 $x_i$ 称为支持向量，而某支持向量到超平面的距离的2倍称为间隔： $margin=\cfrac{2}{||w||}$ ，要最大化间隔可以最小化 $∣ ∣ w ∣ ∣$ 。并且,所有数据满足：
$\begin{aligned} \begin{cases} w^Tx_i+b \geq +1& , y_i=+1 \\ w^Tx_i+b \leq -1 & , y_i=-1 \end{cases} \\ \\ 即：y_i(w^Tx_i+b) \geq 1,i=1,2,...,m \end{aligned}$
上述不等式表达的意思是：所有数据点都要分类正确。

总之，线性SVM模型目标在于求解 $w, b$ ，使得数据点均分类正确的情况下，同时间隔要最大化，即：

$\begin{aligned} & min_{[w,b]} \enspace \frac{1}{2}||w||^2 \\ \\ &s.t. \enspace y_i(w^Tx_i+b) \geq 1,i=1,2,...,m \end{aligned}$

这就是线性支持向量机的模型。它是一个凸二次规划问题，关于这类问题有很多方法可以求解，有兴趣的可以去学习凸优化理论。然而，伟大的数学家发明出了更高效的方法(对偶问题)来求解。

2. 对偶理论

一般的优化问题如下：

$\begin{aligned} &min_{[x]} \enspace g(x) \\ \\ &s.t. \enspace f_i(x)\leq 0,i=1,2,...,m \\ & \qquad h_i(x)= 0,i=1,2,...,q \end{aligned}$
构造拉格朗日辅助函数: $L(x,\alpha,v)=g(x)+\sum_{i=1}^m \alpha_if_i(x)+\sum_{i=1}^qv_ih_i(x),(\alpha_i\geq0)$

现在我们对L最大化 $\alpha,v$ 得：
$\begin{aligned} max_{[\alpha,v]} \enspace L(x,\alpha,v)=g(x)+max\{\sum_{i=1}^m \alpha_if_i(x)+\sum_{i=1}^qv_ih_i(x)\} \end{aligned}$
由于 $f_i(x)\leq=0且\alpha_i\geq0$ ，则 $\alpha_if_i(x)$ 的取值为负无穷到0,得到 $max\enspace \sum_{i=1}^m \alpha_if_i(x)=0$ ；又 $h_i(x)=0,则max\enspace \sum_{i=1}^qv_ih_i(x)=0$ 。故推导出:
$\begin{aligned} g(x)= max_{[\alpha,v]} \enspace L(x,\alpha,v) \end{aligned}$
那么原问题可以表达为： $p^*=min_{[x]} max_{[\alpha,v]} \enspace L(x,\alpha,v)$

其对偶问题为： $d^*= max_{[\alpha,v]}min_{[x]}\enspace L(x,\alpha,v)$ (强对偶条件成立时)

观察原问题和对偶问题的表达式，其实就是交换了一下求解次序。这样做的意义在于：直接求解 $p^*$ 是非常困难的。但是交换了次序后，先求解 $min_{[x]}\enspace L(x,\alpha,v)$ 可能非常简单，再求解 $max_{[\alpha,v]}$ 也可能非常简单。

我们现在看d*是如何推导出来的：

设拉格朗日对偶函数： $h(\alpha,v)=min_{[x]}L(x,\alpha,v)$ 。再任取 $x_0$ 是原问题可行的点，即满足 $f_i(x_0)\leq0,h_i(x_0)=0$ ，有：
$\begin{aligned} 由于\alpha_i\geq 0,则\sum_{i=1}^m \alpha_if_i(x_0)+\sum_{i=1}^qv_ih_i(x_0) &\leq 0 \\ L(x_0,\alpha,v)=g(x_0)+\sum_{i=1}^m \alpha_if_i(x_0)+\sum_{i=1}^qv_ih_i(x_0)&\leq g(x_0) \\ h(\alpha,v)=min_{[x]}L(x,\alpha,v)\leq L(x_0,\alpha,v)&\leq g(x_0) \end{aligned}$
即，

最低0.47元/天解锁文章

Jender_Sean

关注

4
点赞
踩
18

收藏

觉得还不错? 一键收藏
0
评论
线性支持向量机

1. 线性SVM模型线性支持向量机的思想非常朴素：用一个超平面将两类数据分割开来。如上图，这样的超平面有无数个，选择哪个超平面更好呢？从上图可以看出，平面①会将红色的两个数据分错，平面②则不会，这是因为平面②将两边的间隔分得更大。所以，我们应该选择将两边间隔分割得最大的超平面。设超平面为wTx+b=0w^Tx+b=0wTx+b=0,类别标记yi∈[−1,1]y_i\in[-1,1]yi∈[−1,1]。现将超平面上下平移，直到有数据穿过为止，此时wTxi+b=1或wTxi+b=−1w^Tx_i+b=
复制链接

扫一扫