SVM详解(二)线性支持向量机与软间隔最大化

最新推荐文章于 2021-11-01 17:04:25 发布

积跬步以至千里。

最新推荐文章于 2021-11-01 17:04:25 发布

阅读量543

点赞数 2

分类专栏： SVM 机器学习

本文链接：https://blog.csdn.net/spiritedaway1106/article/details/109238953

版权

机器学习同时被 2 个专栏收录

13 篇文章 5 订阅

订阅专栏

SVM

3 篇文章 0 订阅

订阅专栏

1. 线性支持向量机

我们介绍了线性可分支持向量机模型，我们适用硬间隔最大化算法学得最好的分离超平面，但是该模型只适用于训练数据集是线性可分的情况，对于线性不可分训练数据集并不适用。通常情况下，线性不可分训练数据集，往往有一些特异点，将这些特异点去除之后，剩下大部分的样本点组成的集合是线性可分的，根据这个特性，我们允许一些特异点不满足函数间隔大于等于 $1$ (即 $y_i({w}\cdot x_i+{b})-1\geq 0$ )的约束条件，来使用支持向量机达到分类训练数据集的目的。

为此，我们为训练数据集 $T$ 的每个样本点 $x_i,y_i)$ 都引入一个松弛变量 $\xi_i \geq = 0$ ，使得函数间隔加上松弛变量，能满足间隔大于等于 $1$ 的约束条件，即 $y_i({w}\cdot x_i+{b})+\xi_i-1\geq 0$ 即

$y_i({w}\cdot x_i+{b})\geq 1-\xi_i$

怎么理解这件事情呢，为了方便描述，我们将上面的式子两边同时除以 $∣ ∣ w ∣ ∣$ ，得到

$y_i(\frac{{w}\cdot x_i+{b}}{||w||}) + \frac{\xi_i}{||w||}\geq \frac{1}{||w||}$

如下图所示，红色圆圈和五角星为特异点，白色则为正常的训练数据点

松弛变量

对于图中的点 $1$ ，其位于间隔边界内部，且能够被正确分类，其距离分离超平面的距离可表示为为 $y_i(\frac{{w}\cdot x_i+{b}}{||w||})$ ，我们通过对该点添加松弛变量 $\xi_1$ ，使得 $y_i(\frac{{w}\cdot x_i+{b}}{||w||}) + \frac{\xi_i}{||w||}\geq \frac{1}{||w||}$ 成立，即可以看做是将点沿 $w$ 所在直线方向朝正确分类的一侧移动至间隔边界上或者间隔边界外。至少应移动 $\frac {\xi_1}{||w||}$ 至间隔边界上，此时有 $\xi_1< 1$
对于图中的点 $2$ ，其位于分离超平面上，则其距离分离超平面的距离可表示为为 $y_i(\frac{{w}\cdot x_i+{b}}{||w||}) = 0$ ，我们通过对该点添加松弛变量 $\xi_2$ ，使得 $y_i(\frac{{w}\cdot x_i+{b}}{||w||}) + \frac{\xi_i}{||w||}\geq \frac{1}{||w||}$ 成立，即可以看做是将点沿 $w$ 所在直线方向朝正确分类的一侧移动至间隔边界上或者间隔边界外。至少应移动 $\frac {\xi_2}{||w||}$ 至间隔边界上，此时有 $\xi_2=1$
对于图中的点 $3$ ，被错误分类，其距离分离超平面的距离可表示为为 $-y_i(\frac{{w}\cdot x_i+{b}}{||w||})$ ，我们通过对该点添加松弛变量 $\xi_3$ ，使得 $y_i(\frac{{w}\cdot x_i+{b}}{||w||}) + \frac{\xi_i}{||w||}\geq \frac{1}{||w||}$ 成立，即可以看做是将点沿 $w$ 所在直线方向朝正确分类的一侧移动至间隔边界上或者间隔边界外。至少应移动 $\frac {\xi_3}{||w||}$ 至间隔边界上，此时有 $\xi_3>1$
对于图中的点 $4$ ，其位于间隔边界外部，且能够被正确分类，其距离分离超平面的距离可表示为为 $y_i(\frac{{w}\cdot x_i+{b}}{||w||})$ ，从图中可知，该点已经满足 $y_i(\frac{{w}\cdot x_i+{b}}{||w||}) \geq \frac{1}{||w||}$ 成立，此时有 $\xi_4=0$

通过引入松弛变量的几何意义解释，我们可以认为，松弛变量 $\xi_i$ 表征了样本点 $x_i,y_i)$ 如果是特异点的话，需要多少距离，才能被正确分类。

我们需要对每个松弛变量 $\xi_i$ ，支付一个代价 $\xi_i$ ，目标函数由原来的 $\frac{1}{2}||w||^2$ 变成了

$\frac{1}{2}||w||^2+C\sum\limits_{i=1}^N\xi_i，\quad C>0 \quad [1.1]$

这里的 $C\sum\limits_{i=1}^N\xi_i$ 其实就是正则项， $C$ 称为惩罚参数，一般由应用问题决定， $C$ 值大时对误分类的惩罚增大， $C$ 值小时对误分类的惩罚减小，最小化 $[1.1]$ 其实就是使 $\frac{1}{2}||w||^2$ 尽可能小即间隔尽量大，同时使误分类点的个数尽量小， $C$ 则是调和二者的系数。

基于上面的思路，我们得到了线性不可分的线性支持向量机的学习最优化问题:

$\min\limits_{w,b,\xi} \quad \frac{1}{2}||w||^2+C\sum\limits_{i=1}^N\xi_i，\quad [1.2]$

$\begin{aligned} s.t. \quad &y_i({w}\cdot x_i+{b})\geq 1-\xi_i ，\quad i=1,2,\cdots,N \quad [1.3] \\ &\xi_i \geq 0 ，\quad i=1,2,\cdots,N \quad [1.4]\end{aligned}$

将这个问题作为原始问题，其仍是一个凸二次规划问题。相比于线性可分支持向量机的硬间隔最大化，我们将线性不可分的线性支持向量机学习问题称为软间隔最大化。显然，线性支持向量机是包含线性可分支持向量机的，由于现实中训练数据集往往是线性不可分的，因此线性支持向量机具有更广的适用性。

线性支持向量机定义

对于给定的线性不可分的训练数据集，通过求解凸二次规划问题，即软间隔最大化问题 $\sim [1.4]$ ，得到的分离超平面为 $w^*\cdot x+b^*=0$

以及相应的分类决策函数

$sign(w^*\cdot x+b^*=0)$

称为线性支持向量机

2. 学习的对偶算法

参照线性可分支持向量机，我们依然通过对偶问题来解线性支持向量机的原始问题 $\sim [1.4]$ 。

首先构建拉格朗日函数，为：

$\begin{aligned}L(w,b,\xi,\alpha,\mu) &= \frac{1}{2}||w||^2 +C\sum\limits_{i=1}^N\xi_i- \sum\limits_{i=1}^N\alpha_i[y_i({w}\cdot x_i+{b})-1+\xi_i]-\sum\limits_{i=1}^N\mu_i\xi_i \\&= \frac{1}{2}||w||^2 - \sum\limits_{i=1}^N\alpha_iy_i({w}\cdot x_i+{b})+\sum\limits_{i=1}^N\alpha_i + \sum\limits_{i=1}^N(C-\alpha_i-\mu_i)\xi_i \quad [2.1]\end{aligned}$

其中， $\alpha_i \geq 0,\mu_i\geq 0$

根据拉格朗日对偶性，原始问题的对偶问题是极大极小问题：

$\max\limits_{\alpha,\mu} \min\limits_{w,b,\xi}L(w,b,\alpha)$

所以，为了得到对偶问题的解，需要先求 $L(w,b,\xi,\alpha,\mu)$ 对 $w,b,\xi$ 的极小，再求对 $\alpha,\mu$ 的极大，

$(1)$ 求 $\min\limits_{w,b,\xi}L(w,b,\xi,\alpha,\mu)$

将拉格朗日函数 $L(w,b,\xi,\alpha,\mu)$ 分别对 $w, b$ 求偏导并令其等于 $0$ ，得到

$\begin{cases} \nabla_wL(w,b,\xi,\alpha,\mu) = w -\sum\limits_{i=1}^N\alpha_iy_i x_i = 0 \\ \nabla_bL(w,b,\xi,\alpha,\mu) = -\sum\limits_{i=1}^N\alpha_iy_i = 0 \\ \nabla_{\xi_i} L(w,b,\xi,\alpha,\mu) = C-\alpha_i-\mu_i = 0 \end{cases}$

得

$\begin{aligned} &w = \sum\limits_{i=1}^N\alpha_iy_i x_i \\ &\sum\limits_{i=1}^N\alpha_iy_i=0 \\ &C-\alpha_i-\mu_i = 0 \end{aligned}$

将上式带入拉格朗日函数 $[2.1]$ ，得到

$\begin{aligned}L(w,b,\xi,\alpha,\mu) &= \frac{1}{2}\sum\limits_{i=1}^N\sum\limits_{j=1}^N \alpha_i\alpha_jy_iy_j(x_i\cdot x_j)- \sum\limits_{i=1}^N\alpha_iy_i[{(\sum\limits_{j=1}^N\alpha_jy_j x_j)}\cdot x_i+{b}]+\sum\limits_{i=1}^N\alpha_i \\&= -\frac{1}{2}\sum\limits_{i=1}^N\sum\limits_{j=1}^N \alpha_i\alpha_jy_iy_j(x_i\cdot x_j)+\sum\limits_{i=1}^N\alpha_i\end{aligned}$

即

$\min\limits_{w,b,\xi}L(w,b,\xi,\alpha,\mu) = -\frac{1}{2}\sum\limits_{i=1}^N\sum\limits_{j=1}^N \alpha_i\alpha_jy_iy_j(x_i\cdot x_j)+\sum\limits_{i=1}^N\alpha_i$

$(2)$ 由于 $\min\limits_{w,b,\xi}L(w,b,\xi,\alpha,\mu)$ 中没有参数 $\mu$ 了，因此只需求 $\min\limits_{w,b,\xi}L(w,b,\xi,\alpha,\mu)$ 对 $\alpha$ 的极大，即是对偶问题

$\max\limits_\alpha -\frac{1}{2}\sum\limits_{i=1}^N\sum\limits_{j=1}^N \alpha_i\alpha_jy_iy_j(x_i\cdot x_j)+\sum\limits_{i=1}^N\alpha_i$

$\begin{aligned} s.t.\quad &\sum\limits_{i=1}^N\alpha_iy_i=0 \\ &C-\alpha_i-\mu_i = 0 \\ &\alpha_i \geq =0, \quad i=1,2,\cdots,N \\&\mu_i \geq =0, \quad i=1,2,\cdots,N\end{aligned}$

该问题等价为

$\min\limits_\alpha \quad \frac{1}{2}\sum\limits_{i=1}^N\sum\limits_{j=1}^N \alpha_i\alpha_jy_iy_j(x_i\cdot x_j)-\sum\limits_{i=1}^N\alpha_i$

$\begin{aligned}s.t. \quad &\sum\limits_{i=1}^N\alpha_iy_i=0 \\ &0\leq \alpha_i \leq C, \quad i=1,2,\cdots,N \end{aligned}$

可以看出，线性支持向量机和线性可分支持向量机的对偶算法，就只有对偶变量的不等式约束条件不一样，前者是 $0\leq \alpha_i \leq C$ ，后者是 $0\leq \alpha_i$ 。

原始问题的解应满足 $K K T$ 条件，得到：

$\begin{cases} \nabla_wL(w^*,b^*,\xi^*,\alpha^*,\mu^*) = w^* -\sum\limits_{i=1}^N\alpha_i^*y_i x_i = 0 \\ \nabla_bL(w^*,b^*,\xi^*,\alpha^*,\mu^*) = -\sum\limits_{i=1}^N\alpha_i^*y_i = 0 \\ \nabla_{\xi_i} L(w^*,b^*,\xi^*,\alpha^*,\mu^*) = C-\alpha_i^*-\mu_i^* = 0 \quad[2.2] \\ \alpha_i^*(y_i(w^* \cdot x_i+b^*)-1+\xi_i^*) = 0 \quad[2.3]\\ y_i(w^* \cdot x_i+b^*)-1+\xi_i^* \geq 0 \\ \mu_i^*\xi_i^* = 0\\ \alpha_i^* \geq 0 \\\xi_i^* \geq 0 \\ \mu_i^* \geq 0 ,\quad i=1,2,\cdots,N\end{cases}$

由此得

$w^* = \sum\limits_{i=1}^N\alpha_i^*y_i x_i$

其中至少有一个 $\alpha_j < C$ （用反证法，假设 $\alpha^*=0$ ，则 $w^*=0$ ，很显然 $w^*=0$ 不是原始最优化问题的解，产生矛盾），对此 $j$ 有

$y_i(w^* \cdot x_j+b^*)-1+\xi_j^*=0$

$C-\alpha_j^*-\mu_j^* = 0$ ，且 $\mu_j^*\xi_j^* = 0$

由于 $\alpha_j < C$ 可知 $\mu_j^*= C-\alpha_j^*$ ，由于 $\mu_j^*\xi_j^* = 0$

所以有 $\xi_j^* = 0$

此时

$y_i(w^* \cdot x_j+b^*)-1=0$

上式两边同时乘以 $y_j$

$y_j^2(w^* \cdot x_j+b^*)-y_j=0$ 根据 $y_j^2=1$ 可解得

$b^* = y_j-w^* \cdot x_j = y_j-\sum\limits_{i=1}^N\alpha_i^*y_i (x_i\cdot x_j)$

至此，我们解出了 $w^*$ 和 $b^*$ 的值，则最大间隔分离超平面为

$\sum\limits_{i=1}^N\alpha_i^*y_i (x\cdot x_j)+b^*=0$

分类决策函数可以写成

$sign\bigg(\sum\limits_{i=1}^N\alpha_i^*y_i (x\cdot x_j)+b^*\bigg)$

综上所述，我们得到了线性支持向量机的对偶学习算法，描述如下

算法2: 线性支持向量机的对偶学习算法

输入：线性数据集 $T=\{(x_1,y_1),(x_2,y_2),\cdots,(x_N,y_N)\}$ ，其中， $x_i \in \chi=R^n，y_i \in Y=\{-1,1\},\quad i=1,2,\cdots,N;$

输出：分离超平面和分类决策函数

$(1)$ 选择惩罚参数 $C > 0$ ，构造并求解凸二次规划问题：

$\min\limits_\alpha \quad \frac{1}{2}\sum\limits_{i=1}^N\sum\limits_{j=1}^N \alpha_i\alpha_jy_iy_j(x_i\cdot x_j)-\sum\limits_{i=1}^N\alpha_i$

$\begin{aligned}s.t. \quad &\sum\limits_{i=1}^N\alpha_iy_i=0 \\ &0\leq \alpha_i \leq C, \quad i=1,2,\cdots,N \end{aligned}$

求得最优解 $\alpha^* = (\alpha_1^*,\alpha_2^*,\cdots,\alpha_N^*)^T$

$(2)$ 计算

$w^* = \sum\limits_{i=1}^N\alpha_i^*y_i x_i$

并选择 $\alpha^*$ 的一个正分量 $a_j^*>0$ 适合条件 $\alpha_j^* < C$ ，计算

$b^* =y_j-\sum\limits_{i=1}^N\alpha_i^*y_i (x_i\cdot x_j)$

对任一适合条件 $\alpha_j^* < C$ 的 $a_j^*$ ，均能按上式求出 $b^*$ ，但是不同的样本点计算出的 $b^*$ 并不一致，所以一般在所有满足条件的样本点上都计算 $b$ ，然后求平均值作为 $b^*$ 的最终值。

$(3)$ 求得分离超平面

$w^* \cdot x+b^*=0$

分类决策函数

$sign(w^* \cdot x+b^*)$

3. 支持向量

在线性不可分的情况下，将对偶问题的解 $\alpha^*=(\alpha_1^*,\alpha_2^*,\cdots,\alpha_N^*)^T$ 中对应于 $\alpha_i^*>0$ 的样本点 $x_i,y_i)$ 的实例 $x_i$ 称为软间隔的支持向量。有上述求解 $w^*$ 和 $b^*$ 的过程可知，线性支持向量机仍只与支持向量有关。

求解过程中的 $K K T$ 条件中，需要满足

$\alpha_i^*(y_i(w^* \cdot x_i+b^*)-1+\xi_i^*) = 0$ ，对于支持向量，该式子可写成

$y_i(w^* \cdot x_i+b^*)-1+\xi_i^*= 0$ 即

$y_i(w^* \cdot x_i+b^*)=1-\xi_i^*$

根据该式可知软间隔的支持向量 $x_i$ 要么在间隔边界上，要么在间隔边界与分离超平面之间，要么在分离超平面误分一侧。若 $a_i^*<C$ ，则 $\xi_i=0$ (上面根据 $K K T$ 条件求解 $b^*$ 时有证明)，此时有 $y_i(w^* \cdot x_i+b^*)=1$ 则支持向量 $x_i$ 恰好落在间隔边界上；若 $a_i^* = C, 0< \xi_i<1$ ，此时有 $y_i(w^* \cdot x_i+b^*)=1-\xi_i \in (0,1)$ ，则分类正确， $x_i$ 在间隔边界与分离超平面之间；若 $a_i^* = C, \xi_i=1$ ，此时有 $y_i(w^* \cdot x_i+b^*)=0$ ，则 $x_i$ 在分离超平面上；若 $a_i^* = C, \xi_i>1$ ，此时有 $y_i(w^* \cdot x_i+b^*)=1-\xi_i \in (-\infty,0)$ 则 $x_i$ 位于分离超平面误分类一侧。这和我们在开篇引入松弛变量 $\xi_i$ 时的几何解释是一致的。