支持向量机（SVM）

MASHU77

已于 2024-06-15 17:03:26 修改

阅读量1.5k

点赞数 46

文章标签：支持向量机算法机器学习

于 2024-06-11 01:50:19 首次发布

本文链接：https://blog.csdn.net/MASHU77/article/details/139582124

版权

一、简介

支持向量机（Support Vector Machine, SVM）是一种强大的分类算法，它是一种监督学习模型，用于分类和回归分析。其核心思想是通过找到一个最优超平面将不同类别的数据分开。

二、算法原理

支持向量机的核心思想是找到一个超平面将数据点分为不同的类别。对于线性可分的数据集，SVM通过寻找一个能够最大化类别间距离的超平面来实现分类。对于线性不可分的数据集，SVM使用核函数（Kernel Function）将数据映射到高维空间，在高维空间中找到线性可分的超平面。

1、超平面和支持向量

在二维空间中，超平面是一个直线；在三维空间中，超平面是一个平面。对于n维空间，超平面是一个n-1维的子空间。假设我们有一个线性可分的数据集，SVM的目标是找到一个能够最大化间隔的超平面。

我们以二维空间为例，对于一组数据如下图：

我们希望通过一条线将两种不同类别的数据分开，这条线的画法有无数种，其中使间隔最大的那条线就是我们最理想的超平面。而间隔就是图中虚线和虚线之间的距离，对于一个分类问题，间隔越大越能体现出类别的差异，这就是为什么我们需要画出间隔最大的超平面。

对于上述数据，我们只需要找出两种类别中距离最近的两点，做一条直线L，使这两点到L上距离最大，此时L就是我们要找的超平面。

过这两点做平行于L的直线L1和L2，在L1和L2上的点就被称为支持向量，同时我们也可以将L1和L2分别定义为负超平面和正超平面。

2、数学推导

还是以二维空间为例，假设超平面的数学表达式为 $w_{1}x_{1}+w_{2}x_{2}+b=0$ ，设数据中一点为 $(x_{3}, x_{4})$ ，点到直线的距离公式为：

$d= \frac{|w_{1}x_{3}+w_{2}x_{4}+b|}{\sqrt{w_{1}^{2}+w_{2}^{2}}}$

分子拿去绝对值符号可以叫做函数间隔，用 $\gamma$ 表示， $\gamma =y_{i}(w_{1}x_{3}+w_{2}x_{4}+b)$ ， $y_{i}$ 为样本点的标签。分母则是w的范数，因此，式子又可以写成：

$d = \frac{\gamma }{||w||}$

正如‘1、超平面和支持向量’中所说的，我们只需要找出两种类别中距离最近的两点，做一条直线L，使这两点到L上距离最大，表达式为：

$d_{max} = \frac{\widehat{\gamma }}{||w||}, \widehat{\gamma }=min(\gamma _{1},\gamma _{2},...\gamma _{n})$
约束条件： $y_{i}(w_{1}x_{3}+w_{2}x_{4}+b) \geq \widehat{\gamma }$

这里有一个性质需要注意，就是函数间隔是可以缩放的。当 $L$ 变为 $L^{'}:2w_{1}x_{1}+2w_{2}x_{2}+2b=0$ 时， $y_{i}(2w_{1}x_{3}+2w_{2}x_{4}+b) =2\gamma$ ，此时 $L$ 与 $L^{'}$ 仍然代表同一个超平面，所以我们可以将函数间隔取1，最终的表达式为：

$d_{max} = \frac{1}{||w||}$

约束条件： $y_{i}(w_{1}x_{3}+w_{2}x_{4}+b) \geq 1$

由于 $max_{w,b}\frac{1}{||w||}$ 等价于 $min_{w,b} \frac{1}{2}||w||^2$ ，通过拉格朗日对偶得：

$min_{\alpha }\frac{1}{2}\sum_{i}^{n}\sum_{j}^{n}\alpha _{i}\alpha _{j}y_{i}y_{j}(x_{i}\cdot x_{j})-\sum_{i}^{n}\alpha _{i}$

约束条件： $\sum_{i}^{n}\alpha _iy_i=0,\alpha _i\geq 0$

推导的最终结论为：

$w^*=\sum_{i}^{n}\alpha _{i}^{*}y_ix_i$

$b^*=y_j-\sum_{i}^{n}\alpha ^{*}_iy_i(x_{i}\cdot x_{j})$

由此我们可以得出超平面直线的权重w和偏置b。

三、硬间隔和软间隔支持向量机

1、硬间隔支持向量机

对于一组数据，如果可以完全被线性分类，那么这个支持向量机被称为硬间隔支持向量机，如‘二、算法原理’中的图所示。

2、软间隔支持向量机

对于一组数据，如果不能完全被线性分类，那么这个支持向量机被称为软间隔支持向量机，如下图所示：

可以看到有错误的点存在在间隔之中，当存在这样的情况，我们就要引入亏损 $\xi _i$ ，也叫松弛变量。约束条件变为：

$y_{i}(w_{1}x_{3}+w_{2}x_{4}+b) \geq 1-\xi _i, \xi _i\geq 0$

在优化问题上也加上一个惩罚项：

$min_{w,b} \frac{1}{2}||w||^2+C\sum_{i}^{n}\xi _i$

其中C和 $\xi _i$ 都是非零正数。

同样的，也对上述式子做拉格朗日对偶：

$min_{\alpha }\frac{1}{2}\sum_{i}^{n}\sum_{j}^{n}\alpha _{i}\alpha _{j}y_{i}y_{j}(x_{i}\cdot x_{j})-\sum_{i}^{n}\alpha _{i}$

约束条件： $\sum_{i}^{n}\alpha _iy_i=0,C\geq \alpha _i\geq 0$

推导的最终结论为：

$w^*=\sum_{i}^{n}\alpha _{i}^{*}y_ix_i$

$b^*=y_j-\sum_{i}^{n}\alpha ^{*}_iy_i(x_{i}\cdot x_{j})$

可以看出来硬间隔支持向量机和软间隔支持向量机的结论是基本一致的，只有 $\alpha$ 的取值范围不同。

四、核函数

当数据在原始特征空间中线性不可分时，SVM通过核方法（Kernel Method）将数据映射到高维空间，使得在高维空间中数据线性可分。

可见上图的数据集明显是线性不可分的，因此我们可以通过增维，将他们映射到新的平面上，下图就是通过核函数构建第二个维度的结果：

可以看到，这组数据通过处理又变成线性可分了。这样的方法也被称作非线性支持向量机。

以上面的数据为例，假设一点为 $x = x_1$ ，我们通过 $\phi$ 函数将 $x_1$ 映射为 $x_1^2$ ：

$x\sim \phi (x)=(x_1)^2$

由此我们可以定义一个函数 $K$ ：

$K(x_1) = \phi (x_1)$

这个函数 $K$ 就是核函数。

我们可以利用这个核函数得到核函数变换的非线性支持向量机的优化函数：

$min_{\alpha }\frac{1}{2}\sum_{i}^{n}\sum_{j}^{n}\alpha _{i}\alpha _{j}y_{i}y_{j}K(x_{i},x_{j})-\sum_{i}^{n}\alpha _{i}$