线性可分支持向量机（SVM）与硬间隔最大化

最新推荐文章于 2022-04-02 18:12:25 发布

chansonzhang

最新推荐文章于 2022-04-02 18:12:25 发布

阅读量416

点赞数 1

分类专栏： AI Algorithm ML 文章标签： SVM 机器学习支持向量机

本文链接：https://blog.csdn.net/chansonzhang/article/details/84980039

版权

AI 同时被 3 个专栏收录

68 篇文章 2 订阅

订阅专栏

Algorithm

6 篇文章 0 订阅

订阅专栏

5 篇文章 0 订阅

订阅专栏

分类决策函数:
$f (x) = s i g n (w x + b)$
其中
$sign(z)=\begin{cases}+1 &if\space z\ge 0\\ -1 &otherwise \end{cases}$

训练数据T中的一个样本 $x^{(i)},y^{(i)})$ 的函数间隔：
$\hat\gamma(i) = y^{(i)}(wx + b).$

函数间隔有个问题，比如将w和b增大2倍，间隔就会增大2倍，但这没有什么意义！！！因为超平面还是那个超平面，而我们的目标是选一个较好的超平面。

为此我们定义一个与w,b的比例尺无关的几何间隔（对w，b使用L2正则化）：

$\gamma(i) = y^{(i)}(\dfrac{w}{||w||} x + \dfrac{b}{||w||}).$

整个训练数据T的函数间隔：
$\gamma=\displaystyle\min_{i=1,\cdots,N}\gamma(i)$
优化问题为：
$\begin{alignedat}{2} &\displaystyle\max_{w,b} \quad \gamma \\ &s.t.\quad y^{(i)}(\dfrac{w}{||w||}x^{(i)}+\dfrac{b}{||w||}) \ge\gamma \end{alignedat}$
因为 $\gamma=\dfrac{\hat\gamma}{||w||}$

则该优化问题等价于：

$\begin{alignedat}{2} &\displaystyle\max_{w,b} \quad \dfrac{\hat\gamma}{||w||} \\ &s.t.\quad y^{(i)}(\dfrac{w}{||w||}x^{(i)}+\dfrac{b}{||w||}) \ge \dfrac{\hat\gamma}{||w||} \end{alignedat}$

即
$\begin{alignedat}{2} &\displaystyle\max_{w,b} \quad \dfrac{\hat\gamma}{||w||} \\ &s.t.\quad y^{(i)}(wx^{(i)}+b) \ge \hat\gamma \end{alignedat}$

因为比例缩放不影响最优化问题的不等式约束，我们可以让 $\hat\gamma=1$ ,则最优化问题变成
$\begin{alignedat}{2} &\displaystyle\max_{w,b} \quad \dfrac{1}{||w||} \\ &s.t.\quad y^{(i)}(wx^{(i)}+b) \ge 1 \end{alignedat}$
因为最大化 $\dfrac{1}{||w||}$ 和最小化 $\dfrac{1}{2}||w||^2$ 是等价的，所以最优化问题变成：
$\begin{alignedat}{2} &\displaystyle\min_{w,b} \quad \dfrac{1}{2}||w||^2 \\ &s.t.\quad y^{(i)}(wx^{(i)}+b)-1 \ge 0 \end{alignedat}$

对每个不等式约束引入一个拉格朗日算子 $\alpha_i\ge 0$ ,定义拉格朗日函数：
$L(w,b,\alpha)=\dfrac{1}{2}||w||^2 -\displaystyle\sum_{i=1}^N\alpha_i [y^{(i)}(wx^{(i)}+b)-1]$
则原始问题为：
$\displaystyle\min_{w,b}\displaystyle\max_\alpha L(w,b,\alpha)$
其拉格朗日对偶问题为：
$\displaystyle\max_\alpha \displaystyle\min_{w,b} L(w,b,\alpha)$

令
$\begin{aligned} &\nabla_wL(w,b,\alpha)=w-\displaystyle\sum_{i=1}^N\alpha_iy^{(i)}x^{(i)}=0 \\ &\nabla_b L(w,b,\alpha)=-\displaystyle\sum_{i=1}^N\alpha_iy^{(i)}=0 \end{aligned}$

得到
$\begin{aligned} \displaystyle\min_{w,b} L(w,b,\alpha)&=-\dfrac{1}{2}\displaystyle\sum_{i=1}^N\displaystyle\sum_{j=1}^N\alpha_i\alpha_jy^{(i)}y^{(j)}(x^{(i)}\cdot x^{(j)}) +\displaystyle\sum_{i=1}^N\alpha_i \\ w&=\displaystyle\sum_{i=1}^N\alpha_iy^{(i)}x^{(i)} \end{aligned}$

一般情况下 $\max\min<\min\max$
,只有KKT条件成立的时候，原始问题的解才和对偶问题的解相等。

对于形如
$\begin{aligned} &\min_w \quad f(w) \\ & \begin{aligned}s.t. \quad g_i(w) &≤ 0, i = 1, . . . , k\\ h_i(w) &= 0, i = 1, . . . , l. \end{aligned} \end{aligned}$
拉格朗日函数为
$\displaystyle\sum_{i=1}^k α_ig_i(w) + \displaystyle\sum_{i=1}^l β_i h_i(w).$
的问题，其KTT条件如下：
$\begin{aligned} \dfrac{\partial}{\partial w_i}L(w, α, β) &= 0, \quad i = 1,\cdots ,N \\ \dfrac{\partial}{\partial \beta_i}L(w, α, β) &= 0, \quad i = 1, \cdots ,l \\ \alpha_i g_i(w) &= 0 ,\quad i = 1, \cdots ,k\\ g_i(w) &≤ 0, \quad i = 1, \cdots ,k \\ α_i &≥ 0, \quad i = 1, \cdots ,k \end{aligned}$
注意因为 $g_i(w)=-[y^{(i)}(wx^{(i)}+b)-1]\le 0$ ,
如果 $\alpha_i>0$ ,则必有 $g_i(w)$ =0,则说明样本 $i$ 距离分割超平面的距离为1，我们称这样的点为支持向量.

假设 $\alpha_j>0$ ,则
$y^{(j)}(wx^{(j)}+b)-1=0$
将w的值代入，得
$\begin{aligned} 0&=y^{(j)}(\sum\alpha_iy^{(i)}x^{(i)}x^{(j)}+b)-1 \\ &=(y^{(j)})^2(\sum\alpha_iy^{(i)}x^{(i)}x^{(j)}+b)-y^{(j)} \\ &=\sum\alpha_iy^{(i)}x^{(i)}x^{(j)}+b-y^{(j)} \end{aligned}$
则
$b=y^{(j)}-\displaystyle\sum_{i=1}^N\alpha_iy^{(i)}x^{(i)}x^{(j)}$

在得到 $w$ 和 $b$ 之后，当我们对新的数据· $x$ 进行分类，即判断wx+b的符号，将w的值代入得：
$\begin{aligned} w^T x + b &= (\displaystyle\sum_{i=1}^N\alpha_iy^{(i)}x^{(i)})^Tx+b \\ &=\displaystyle\sum_{i=1}^N\alpha_iy^{(i)}\langle x^{(i)},x\rangle+b \end{aligned}$
注意只有支持向量 $i$ 对应的 $\alpha_i$ 才可能大于0，而其他的 $\alpha_i$ 均为0，因为训练样本中只有很少的几个点是支持向量，因此上述计算过程中计算内积将会减少很多开销。当然这也说明了一点，最后得到的分类器其实只和支持向量有关，和其他的点无关。

参考文献：

[1] http://cs229.stanford.edu/notes/cs229-notes3.pdf
[2] 统计学习方法-李航

chansonzhang

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
线性可分支持向量机（SVM）与硬间隔最大化

分类决策函数:f(x)=sign(wx+b)f(x)=sign(wx+b)f(x)=sign(wx+b)其中sign(z)={+1if&nbsp;z≥0−1otherwisesign(z)=\begin{cases}+1 &amp;amp;if\space z\ge 0\\-1 &amp;amp;otherwise\end{cases}sign(z)={+1−1if&nbsp;...
复制链接

扫一扫