线性支持向量机（SVM）

最新推荐文章于 2024-06-11 15:17:35 发布

free-dong

最新推荐文章于 2024-06-11 15:17:35 发布

阅读量1.1k

点赞数 3

分类专栏：机器学习文章标签： SVM 支持向量机线性支持向量机

本文链接：https://blog.csdn.net/Eric_Fisher/article/details/90736133

版权

机器学习专栏收录该内容

1 篇文章 0 订阅

订阅专栏

文章目录

1. 线性支持向量机（SVM）基本原理
- 1.1 线性SVM要解决的问题
- 1.2 对偶问题

1. 线性支持向量机（SVM）基本原理

1.1 线性SVM要解决的问题

给定训练样本集 $\{ ( \bm{x_1}, y_1), (\bm{x_2}, y_2), ..., (\bm{x_m}, y_m), y_i \in \{ -1, +1 \} \}$ , 支持向量机的基本思想就是基于训练集 $D$ 在样本空间中找到一个超平面，将不同类别的样本分开。但是能够将训练样本分开的超平面有很多，我们应该找哪一个呢？

图1

直观上看，应该寻找两类训练样本中“正中间”的超平面，即图1中最粗的线。这条线能够将两类样本分隔开，并且对新的样本泛化能力强，最具鲁棒性。
在样本空间中，超平面可以用如下线性方程描述：
$\bm{w}^T \bm{x} + b = 0 \tag{1}$

其中 $\bm{w} = (w_1; w_2;,...,w_d)$ 为法向量，决定了超平面的方向， $b$ 为位移项，决定了超平面与原点之间的距离。我们将超平面记为 $(\bm{w}, b)$ .
假设超平面 $(\bm{w}, b)$ 能够将训练样本正确分类，即对于 $(\bm{x_i}, y_i) \in D$ ，若 $y_i = +1$ ，则有 $\bm{w}^T \bm{x}_i + b > 0$ ；若 $y_i = -1$ ，则有 $\bm{w}^T \bm{x}_i + b < 0$ 。通过缩放，令：
$\left\{ \begin{aligned} \bm{w}^T \bm{x}_i + b \geq +1, y_i = +1 \\ \bm{w}^T \bm{x}_i + b \leq -1, y_i = -1 \\ \end{aligned} \right. \tag{2}$
如图2所示，距离超平面最近的这几个点使得式 $(2)$ 等号成立，它们被称为“支持向量”（support vector），两个异类支持向量到超平面的距离之和为：
$\gamma = \dfrac{2}{||\bm{w}||}, \tag{3}$

它被称“间隔”（margin）。

图2

要找到“最大间隔”（maximum margin）的超平面，也就是要找到满足式 $(2)$ 中约束参数 $\bm w$ 和 $b$ ，使得 $\gamma$ 最大，即：
$\begin{aligned} & \max \limits_{\bm w, b} \dfrac{2}{||\bm w||} \\ & s.t. \ y_i(\bm{w}^T \bm{x}_i + b) \geq 1, \ i = 1,2,..., m. \\ \end{aligned} \tag{4}$

为了方便后续的计算，我们将式 $(4)$ 重写为：
$\begin{aligned} & \min \limits_{\bm w, b} \dfrac{1}{2} ||\bm w||^2\\ & s.t. \ y_i(\bm{w}^T \bm{x}_i + b) \geq 1, \ i = 1,2,..., m. \\ \end{aligned} \tag{5}$

这就是SVM的基本型。

1.2 对偶问题

式（5）是一个凸二次规划（convex quadratic programming）问题，能直接用现成的优化计算包求解，但是我们可有用更高效的办法。对式（5）每条约束添加拉格朗日乘子 $\alpha_i \geq0$ ，则该问题的拉格朗日函数可以写为：
$L(\bm w, b, \bm \alpha) = \dfrac{1}{2} ||\bm w||^2 + \sum_{i=1}^{m} \alpha_i(1 - y_i(\bm {w}^T \bm {x}_i + b) ) \tag{6}$

其中， $\bm \alpha=(\alpha_1;\alpha_2;...;\alpha_m)$ 。令 $L(\bm w, b, \bm \alpha)$ 对 $\bm w$ 和 $b$ 的偏导为零可得：
$\bm w = \sum_{i=1}^{m} \alpha_i y_i \bm {x}_i,\tag{7}$

$\sum_{i=1}^{m} \alpha_i y_i ,\tag{8}$

将式（7）和（8）代入式（6）中，得到式（6）的对偶问题：
$\begin{aligned} & \max_{\bm \alpha} \sum_{i=1}^{m} \alpha_i - \dfrac{1}{2} \sum_{i=1}^{m}\sum_{j=1}^{m} \alpha_i \alpha_j y_i y_i \bm {x}_i^T \bm {x}_j^T \\ \tag{9} & s.t. \ \sum _{i=1}^{m} \alpha_i y_i = 0, \\ & \qquad \alpha_i \geq 0, \ i = 1,2,...,m.\\ \end{aligned}$

求解得到 $\bm \alpha$ 后，可以求得 $\bm w$ 和 $b$ ，最终得到分类模型：
$\begin{aligned} f(x) & = \bm {w}^T \bm {x} + b \\ & = \sum_{i=1}^{m} \alpha_i y_i \bm {x}_i^T \bm x + b . \end{aligned} \tag{10}$

上述过程需要满足KKT条件（Karush-Kuhn-Tucher），即求：
$\left\{ \begin{aligned} \alpha_i \geq 0; \\ y_i f(\bm {x}_i) - 1 \geq 0; \\ \alpha_i (y_i f(\bm {x}_i) - 1) \geq 0; \\ \end{aligned} \right. \tag{11}$

于是，对于任意训练样本 $(\bm {x}_i, y_i)$ ，总有 $\alpha_i = 0$ 或 $y_i f(\bm {x}_i) = 1$ 。若 $\alpha_i = 0$ ，则该样本不会再式（10）中出现，也就不会对分类器有任何影响；若 $\alpha_i \geq 0$ ，则必有 $y_i f(\bm {x}_i) = 1$ ，所对应的样本点位于最大间隔边界上，是一个支持向量。因此，最终模型仅与支持向量有关。

free-dong

关注

3
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
线性支持向量机（SVM）

文章目录1. 线性支持向量机（SVM）基本原理1.1 性SVM要解决的问题1. 线性支持向量机（SVM）基本原理1.1 性SVM要解决的问题给定训练集KaTeX parse error: No such environment: equation at position 8: \begin{̲e̲q̲u̲a̲t̲i̲o̲n̲}̲\begin{split}H…...
复制链接

扫一扫