1.SVM算法推导-线性可分时

最新推荐文章于 2021-10-12 10:28:21 发布

fxjboke

最新推荐文章于 2021-10-12 10:28:21 发布

阅读量359

点赞数

分类专栏：机器学习算法文章标签：算法推导机器学习 SVM

本文链接：https://blog.csdn.net/qq_26141121/article/details/92694444

版权

机器学习算法专栏收录该内容

0 篇文章 0 订阅

订阅专栏

问题

已知样本为 ${x_1},{x_2}...{x_n}]$ ，样本标签为 ${y_1},{y_2}...{y_n}],{y_i} = 0,1$ 。试通过SVM法求最好分隔样本的超平面，写出其计算过程。

1构造优化问题

解：假设存在一个超平面 $w x + b = 0$ 能完全分隔样本，则通过尺度收缩总能找到两个超平面 $w x + b = - 1$ 和 $w x + b = 1$ ，使样本在平面上或平面外侧，如下图所示。

图1 分隔平面

即满足:

${y_i}(w{x_i} + b) \ge 1 \tag{1}$

但对线性可分的训练数据集而言，使其线性可分的超平面有无穷多个，那么我们该如何选择这两个平面呢？

我们希望我们找的2个平面能最好分隔样本点，那么什么才是最好分隔呢？不难想象，使这两个平面的距离尽可能大，则两类样本的差异就越明显，分类效果最好。即目标是：

$\tag{2}$

其中d为两个分隔面之间的距离，这样的平面只有一个。

记 $x_1,x_2$ 分别是 $w x + b = - 1$ 和 $w x + b = 1$ 上的两点，且垂直于两个平面 $x_1x_2$ ，即 $x_1x_2||=d$ 。
因为:
$x_1x_2 = x_2-x_1= \lambda w \tag{3}$

(3)式代入 $w{x_2} + b = 1$ 可得：

$w({x_1} + \lambda w) + b = 1 \tag{4}$

代入 $w{x_1} + b = -1$ 到(4)式可得：

$\lambda {w^2} = 2 \tag{5}$

从而得：
$\max d = \max |{x_2} - {x_1}|{\rm{ = max}}\lambda \left\| w \right\| = \max \frac{2}{{{w^2}}}\left\| w \right\| = \max \frac{2}{{\left\| w \right\|}}$

等价于 $\min \frac{{{w^2}}}{2}$ 。

即原问题变为凸优化问题：

$\min \frac{{{w^2}}}{2} \tag{6}$

$st:{y_i}(w{x_i} + b) \ge 1,i = 1,..N$

2拉格朗日对偶求解

构建拉格朗日函数：
$L(w,b,\alpha ) = \frac{{{w^2}}}{2} + \sum\limits_{i = 1}^N {{\alpha _i}(1 - {y_i}(w{x_i} + b))} \tag{7}$

其中 ${\alpha _i} \ge 0$ 为拉格朗日乘子。

根据拉格朗日对偶性，原问题的对偶问题是最大最小值问题：

${\max _\alpha }{\min _{w,b}}L(w,b,\alpha ) \tag{8}$

首先求解 ${\min _{w,b}}L(w,b,\alpha )$ ，对w求梯度，令其为0：
${\nabla _w}L(w,b,\alpha ) = w - \sum\limits_{i = 1}^N {{\alpha _i}{y_i}{x_i}} {\rm{ = }}0$
${\nabla _b}L(w,b,\alpha ) = \sum\limits_{i = 1}^N {{\alpha _i}{y_i}} {\rm{ = }}0$
可得：
$\sum\limits_{i = 1}^N {{\alpha _i}{y_i}{x_i}} \tag{9}$
$\sum\limits_{i = 1}^N {{\alpha _i}{y_i}} {\rm{ = }}0 \tag{10}$

把(9)(10)代入(7)式可得：
$\begin{array}{l} \min L{(w,b,\alpha )_{w,b}} = \frac{1}{2}\sum\limits_{i = 1}^N {\sum\limits_{j = 1}^N {{\alpha _i}{\alpha _j}{y_i}{y_j}{x_i}} } {x_j}{\rm{ + }}\sum\limits_{i = 1}^N {{\alpha _i}} - \sum\limits_{i = 1}^N {{\alpha _i}{y_i}((\sum\limits_{j = 1}^N {{\alpha _j}{y_j}{x_j}){x_i})} } - b\sum\limits_{i = 1}^N {{\alpha _i}{y_i}} \\ = - \frac{1}{2}\sum\limits_{i = 1}^N {\sum\limits_{j = 1}^N {{\alpha _i}{\alpha _j}{y_i}{y_j}{x_i}} } {x_j} {\rm{ + }}\sum\limits_{i = 1}^N {{\alpha _i}} \end{array}$

然后求 $L{(w,b,\alpha )_{w,b}}$ 对 $\alpha$ 的极大，即是对偶问题：
${\max _\alpha } - \frac{1}{2}\sum\limits_{i = 1}^N {\sum\limits_{j = 1}^N {{\alpha _i}{\alpha _j}{y_i}{y_j}{x_i}} } {x_j} + \sum\limits_{i = 1}^N {{\alpha _i}} \tag{11}$
$s.t:\sum\limits_{i = 1}^N {{\alpha _i}{y_i}} {\rm{ = }}0$
${\alpha _i} \ge 0,i = 1,...N$
上式等价于：
${\min _\alpha }\frac{1}{2}\sum\limits_{i = 1}^N {\sum\limits_{j = 1}^N {{\alpha _i}{\alpha _j}{y_i}{y_j}{x_i}} } {x_j} - \sum\limits_{i = 1}^N {{\alpha _i}} \tag{12}$
$s.t:\sum\limits_{i = 1}^N {{\alpha _i}{y_i}} {\rm{ = }}0$
${\alpha _i} \ge 0,i = 1,...N$

(12)式是(6)式的对偶问题。
最后，使用SMO算法（序列最小最优化）即可求出对偶问题的解 ${\alpha _i}^*$ ，再通过（9）和（10）式可得到原问题的解 ${w^*}$ 和 ${b^*}$ ，从而得到最优超平面 ${w^*}x + {b^*} = 0$ ，即 $\sum\limits_{i = 1}^N {{\alpha _i}^{\rm{*}}{y_i}({x_i}x)} + {b^*} = 0$ 。得到分类决策函数：
$sign(\sum\limits_{i = 1}^N {{\alpha _i}^{\rm{*}}{y_i}({x_i}x)} + {b^*}) \tag{13}$