硬间隔支持向量机原理（Hard-Margin SVM）

最新推荐文章于 2024-05-03 16:18:50 发布

RavenRaaven

最新推荐文章于 2024-05-03 16:18:50 发布

阅读量2.6k

点赞数 1

分类专栏：机器学习文章标签： SVM

本文链接：https://blog.csdn.net/qq_41871826/article/details/102963833

版权

机器学习专栏收录该内容

1 篇文章 0 订阅

订阅专栏

文章目录

硬间隔支持向量机（线性可分SVM）
参考

支持向量机SVM是一种二分类模型，可分为三种，硬间隔SVM（或者是线性可分SVM）、软间隔SVM（线性SVM）、核SVM（非线性SVM）。这三种分别对应由简到繁三种数据集的情况：线性可分数据集；存在一些误差点outlier的线性可分数据集；非线性可分数据集。

按照《统计学习方法》书的思路，每一种机器学习的方法都可由模型+策略+算法组成，本文也会按照该思路总结。
(文章中的 $x, w$ 均为向量，加粗编公式太繁琐了）

硬间隔支持向量机（线性可分SVM）

1. 模型

数据集表示
假设给定数据集为 $\{(x_1,y_1), (x_2,y_2),\dots, (x_N,y_N)\}$ ，其中 $x_i\in\mathcal{X}={\mathbb R}^n$ , $\{+1,-1\},\ i=1,2,\dots, N$ 。 $x_i$ 为第 $i$ 个样本（总共有 $N$ 个样本，每一个向量的维数为n，也就是有n个特征）。 $y = + 1$ 是正类， $y = - 1$ 是负类。

假设条件：
硬间隔SVM要求数据集是严格线性可分的。
线性可分数据集的定义是：
对于以上给定的数据集T，如果存在一个超平面 $S$ : $w^Tx+b=0$ 能够将数据集中的正类点和负类点完全正确地划分到超平面的两侧，也就是 $w^Tx_i+b>0,\ y_i=+1$ ， $w^Tx_i+b<0,\ y_i=-1$

SVM的思路以及模型表达
线性SVM的通过进行最大化“间隔的”方式学习一个超平面，使正类负类能够完全被分开。
其中学习得到的分类超平面为：
$w^{*T}x+b = 0$
以及分类决策函数为：
$\text{sign}(w^{*T}x+b)$

2. 策略

上一节提到，线性可分SVM的策略是通过进行最大化“间隔的”方式学习一个超平面，使正类负类能够完全被分开。本节将其转化为数学公式和优化问题 $\max_{i=1,...,N}\text{Margin}$

函数间隔和几何间隔
由于二分类问题中 $y=\{+1,-1\}$ ，所以我们将 $x, y$ 融合到一起，也就得到函数间隔： $\gamma_i= y_i(w^Tx_i+b)$ 数据集T中所有样本中函数间隔的最小值为： $\hat\gamma= \min_{i=1,2,\dots,N} y_i(w^Tx_i+b)=\min_{i=1,2,\dots,N}\gamma_i$ 几何间隔（点到平面的距离）的表达式是: $\gamma_i=\frac{y_i}{||w||}(w^Tx_i+b)$ 数据集T中所有样本中几何间隔的最小值为： $\gamma=\min_{i=1,2,\dots,N}\gamma_i$

SVM策略
有了上文的函数间隔和几何间隔，就可以将“最大化间隔”这一思想转变为一个二次凸优化问题，即
$\begin{cases}\text{max}& \frac{\hat\gamma}{||w||}\\\text{s.t.}\ &y_i(w^Tx_i+b)\geq\hat\gamma,\quad i=1,..., N\end{cases}$
因为对不等式进行数乘运算并不影响优化的结果，所以便于求解，令 $\hat\gamma=1$ ，除此之外，为了方便应用拉格朗日乘子法，可以将最大化问题和最小值的约束等价转换为最小化问题和最大值的约束。所以上述优化问题就转化为：
$\begin{cases}\min& \frac{1}{2}||w||^2\\\text{s.t.}\ &1-y_i(w^Tx_i+b)\leq0,\quad i=1,..., N\end{cases}$

3. 求解过程

将朴素的思维转化为一个优化问题之后，就可以构造拉格朗日函数了：
$L(w,b,\alpha) = \frac{1}{2}w^Tw+\sum_{i=1}^N\alpha_i(1-y_i(w^Tx_i+b))\\=\frac{1}{2}w^Tw+\sum_{i=1}^N\alpha_i-\sum_{i=1}^N\alpha_iy_i(w^Tx_i+b)$
上述的优化问题就转化为了（原问题primal problem）：
$\min_{w,b}\max_{\alpha}L(w,b,\alpha)$
(先对函数 $L(w,b,\alpha)$ 取最大值之后含 $\alpha$ 的项变为0，再对 $w, b$ 求最小值)

转化为对偶问题之后，上述问题变成了：
$\max_{\alpha}\min_{w,b}L(w,b,\alpha)$
对偶原则还要求：如果要保证原问题和对偶问题解的一致性，解要满足KKT条件（满足可行域，梯度为0，互补松弛条件）–KKT条件见后文

详细推导过程：
$L(w,b,\alpha)$ 是一个多元二次函数，将其最优化需要让其偏导数为0。
$\frac{\partial L}{\partial w}=w-\sum_{i=1}^N\alpha_iy_ix_i =0$ $\frac{\partial L}{\partial b}=-\sum_{i=1}^N\alpha_iy_i=0$ 可以得到： $w=\sum_{i=1}^N\alpha_iy_ix_i$ $\sum_{i=1}^N\alpha_iy_i=0$
将偏导为0的结果带入拉格朗日函数中：
$L(\alpha)=\frac{1}{2}(\sum_{i=1}^N\alpha_iy_ix_i)^T(\sum_{j=1}^N\alpha_jy_jx_j)+\sum_{j=1}^N\alpha_i-\sum_{j=1}^N\alpha_iy_iw^Tx_i-b\sum_{j=1}^N\alpha_iy_i\\ =\frac{1}{2}\sum_{j=1}^N\sum_{i=1}^N\alpha_iy_i\alpha_jy_j(x_i^Tx_j)+\sum_{j=1}^N\alpha_i-\sum_{j=1}^N\sum_{j=1}^N\alpha_iy_i\alpha_jy_j(x_i^Tx_j)\\=\sum_{j=1}^N\alpha_i-\frac{1}{2}\sum_{j=1}^N\sum_{j=1}^N\alpha_iy_i\alpha_jy_j(x_i^Tx_j)$

进一步，对偶优化问题转化为：
$\max_\alpha L(\alpha)=\max_\alpha\sum_{j=1}^N\alpha_i-\frac{1}{2}\sum_{j=1}^N\sum_{j=1}^N\alpha_iy_i\alpha_jy_j(x_i^Tx_j)$
上述问题就最终转化为以下单变量二次优化问题：
$\min\frac{1}{2}\sum_{j=1}^N\sum_{j=1}^N\alpha_iy_i\alpha_jy_j(x_i^Tx_j)-\sum_{j=1}^N\alpha_i\\ \text{s.t.}\ \quad\sum_{i=1}^N\alpha_iy_i=0,\quad i=1,..., N\\\alpha_i\geq0$

求解结果和KKT条件

KKT条件：
对于一开始的二次规划问题，如果对偶之后的问题与原问题有等价的解，则必须满足KKT条件（充要条件）：
(1) 梯度为0：
$\nabla_wL(w,b,\alpha)=w^*-\sum_{i=1}^N\alpha_iy_ix_i=0$ $\nabla_bL(w,b,\alpha)=-\sum_{i=1}^N\alpha_iy_i=0$
(2) 满足可行域： $y_i(w_i^Tx+b)-1\geq0,\ i=1,2,...,N$ $\alpha_i\geq0,\ i=1,2,...,N$
(3) 由可行域组成的互补松弛条件： $\alpha_i(y_i(w_i^Tx+b)-1)=0,\ i=1,2,...,N$
若 $\alpha_j>0$ 则上述问题的解 $w^*$ 和 $b^*$ 分别满足：
$w^*=\sum_{i=1}^N\alpha_iy_ix_i$ 通过互补松弛条件求 $b^*$ ： $y_j(w^Tx_j+b)=1\\ \to y_j^2(w^Tx_j+b^*) =y_i\\ \to w^Tx_j+b^*=y_j$ $b^* =y_j- \sum_{i=1}^N\alpha_iy_i(x_i^Tx_j)$