支持向量机（Support Vector Machine, SVM）基础知识

seh_sjlj

已于 2023-05-20 21:16:20 修改

阅读量1.3k

点赞数 2

分类专栏：机器学习文章标签：支持向量机机器学习人工智能数学算法

于 2022-03-12 14:22:55 首次发布

本文链接：https://blog.csdn.net/qaqwqaqwq/article/details/123441845

版权

机器学习专栏收录该内容

5 篇文章

订阅专栏

本文介绍了支持向量机的基本概念，包括线性分类器、最大间隔超平面和法向量。讨论了如何通过拉格朗日乘数法寻找最优超平面，以及支持向量机的目标是最大化数据点到超平面的最短距离。最终，文章简要提到了求解过程中的序列最小化算法（SMO）。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

这篇文章仅介绍支持向量机的基础知识，不涉及特别复杂的求解。不清楚基础知识的小伙伴可以看一下这篇文章。

首先呢，支持向量机解决的是将数据点分成两类的问题。本文只考虑线性分类器。对于二维的数据而言，就是要找到一条直线，将数据点分成两类，一类在直线这边，另一类在直线那边。对于更高维，比如 $n$ 维的数据，就是要找到一个“超平面”，将数据分到超平面两侧。这里的“超平面”一定是 $n - 1$ 维的，它的方程一定是 $a_1x_1+a_2x_2+\cdots+a_nx_n+b=0$ 因为增加一个（有效的）约束条件就相当于降一维，在原来没有约束条件（ $n$ 维）的基础上增加一个方程就降到了 $(n - 1)$ 维。例如，在三维中，“超平面”就是二维的平面；二维中，“超平面”就是一维的直线。不论如何，超平面的方程一定是线性函数，这就是为什么叫线性分类器。

观察上面那个式子，用线性代数的知识我们很容易看出左边可以写成两个向量内积的形式。令 $\bm w=\begin{bmatrix}a_1\\a_2\\\cdots\\a_n\end{bmatrix}$ ， $\bm x=\begin{bmatrix}x_1\\x_2\\\cdots\\x_n\end{bmatrix}$ ，则超平面的方程一定可以表示为 ${\bm w}^T\bm x+b=0$ 特别地，在二维的情况下， $\bm x=\begin{bmatrix}x\\y\end{bmatrix}$ ， ${\bm w}^T\bm x+b=0$ 就是直线 $A x + B y + C = 0$ 。

这个向量 $\bm w$ 的含义是什么呢？其实它就是超平面的法向量。我们知道，法向量与超平面上的任意向量正交（垂直）。任取超平面上两点 $\bm x_1,\bm x_2$ ，则 $\bm x_2-\bm x_1$ 就是平面上的一个向量，而 $\bm w^T(\bm x_2-\bm x_1)={\bm w}^T\bm x_1-{\bm w}^T\bm x_2=(-b)-(-b)=0$ ，所以 $\bm w^T$ 与 $\bm x_2-\bm x_1$ 正交， $\bm w$ 与超平面上的任意向量垂直，故 $\bm w$ 是超平面的法向量。特别地，直线 $A x + B y + C = 0$ 的法向量就是 $(A, B)$ 。

那我们的目标是什么呢？且看下图：
在这里插入图片描述

对于这些数据点，显然有无数条直线可以把它们完全分成两类。选哪条最好呢？答案是：选择的这条直线，离它最近的数据点距离它的距离必须最大。换言之：我们要最大化数据点到直线的最短距离。离直线最近的数据点就是支持向量（Support Vector），任意维数中分割数据的超平面称为最大间隔超平面（在这里就是这条直线）。

怎么计算一个点到直线的距离呢？假设对于数据点 $\bm x$ ，我们要计算它到直线 $\bm w^T\bm x+b=0$ 的距离。取直线上任一点 $\bm x_0$ ，则 $\bm x$ 到 $\bm x_0$ 的距离为 $\|\bm x-\bm x_0\|$ 。令 $\bm x-\bm x_0$ 垂直于直线，则 $\bm x-\bm x_0$ 于直线的法向量 $\bm w$ 平行，即 $\bm x-\bm x_0=\lambda\bm w$ ， $\bm x_0=\bm x-\lambda\bm w$ 。而 $\bm x_0$ 在直线上，有 $\bm w^T\bm x_0+b=0$ ，带入得 $\bm w^T\bm x-\lambda\bm w^T\bm w+b=0$ ， $\lambda\bm w^T\bm w=\bm w^T\bm x+b$ ，解得
$\lambda=\frac{\bm w^T\bm x+b}{\|\bm w\|^2}$ $\|\bm x-\bm x_0\|=\|\lambda\bm w\|=\frac{|\bm w^T\bm x+b|}{\|\bm w\|}$ 这就是 $\bm x$ 到直线的距离。这个公式对于任意维数的超平面都成立。

怎么表示分类的结果呢？其实就是一个函数 $y=f(\bm x)$ ，使得对于一类 $\bm x$ 有 $f(\bm x)=1$ ，另一类有 $f(\bm x)=-1$ 。

回到点 $\bm x$ 到直线的距离公式，如果我们把分子的绝对值去掉，那这个距离就可能是负的。但是，有一个很好的性质：在直线上方的这类点距离为正，下面为负。如果我们定义上面这类点 $y$ 值为 $+ 1$ ，下面为 $- 1$ ，那 $y\cfrac{\bm w^T\bm x+b}{\|\bm w\|}$ 就是恒正的。我们称 $\tilde{\gamma}(\bm x)=y\cfrac{\bm w^T\bm x+b}{\|\bm w\|}$ 为 $\bm x$ 的几何间隔，它恒正，如果是负的，表示出现了分类错误。

假设数据点到直线的最短距离为 $d$ ，则 $y\cfrac{\bm w^T\bm x+b}{\|\bm w\|}=d$ 。令 $\|\bm w\|=\frac1d$ ，则有 $\min y(\bm w^T\bm x+b)=1$ 。这样做是为了方便计算，此时支持向量在直线 $\bm w^T\bm x+b=\pm 1$ 上。（其中 $\hat\gamma(\bm x)=y(\bm w^T\bm x+b)$ 称为函数间隔。）那么，对于任意数据点 $\bm x_i$ ，有 $y_i(\bm w^T\bm x_i+b)\ge 1$ 。这个约束条件相当于规定了数据点不能落在直线 $\bm w^T\bm x+b=1$ 与 $\bm w^T\bm x+b=-1$ 之间。现在要让 $d$ 最大，就是让 $\frac1{\|\bm w\|}$ 最大。问题转化为求 $\max_{\bm w,b}\frac1{\|\bm w\|},\ \text{s.t. }y_i(\bm w^T\bm x_i+b)\ge1$ 要让 $\frac1{\|\bm w\|}$ 最大，就是让 $\frac12\|\bm w\|^2$ 最小。问题又转化为求 $\min_{\bm w,b}\frac12\|\bm w\|^2,\ \text{s.t. }y_i(\bm w^T\bm x_i+b)\ge1$ 这里平方是为了去除 $\|\bm w\|$ 的根号，乘 $\frac12$ 是为了简化计算。
接下来就要用拉格朗日乘数法了。设有 $n$ 个数据，就有 $n$ 个约束条件。于普通的拉格朗日乘数法不同，这里的约束条件是“大于等于”，不是等于，所以需要一些别出心裁的设计。按照套路，定义拉格朗日函数 $L(\bm w,b,\bm\alpha)=\frac12\|\bm w\|^2-\sum_{i=1}^n\alpha_i[y_i(\bm w^T{\bm x}_i+b)-1]$ 其中 $\bm\alpha=(\alpha_1,\alpha_2,\cdots,\alpha_n)$ 是拉格朗日乘数。令 $\theta(\bm w)=\max_{\alpha_i\ge0}L(\bm w,b,\bm\alpha)$ 添加约束条件 $\alpha_i\ge0$ 就是解决“大于等于”的问题。试想，假如某个约束条件不满足，即 $y_i(\bm w^T\bm x_i+b)<1$ ，那么对应的那一项 $-\alpha_i[y_i(\bm w^T\bm x_i+b)-1]>0$ ，此时取 $\alpha_i\to\infty$ 就有 $\theta(\bm w)\to\infty$ ，所以条件不满足是很容易甄别出来的。

接下来令 $\frac{\partial L}{\partial \bm w}=\frac{\partial L}{\partial b}=0$ ，得到 $\begin{aligned} \bm w&=\sum\limits_{i=1}^{n} \alpha_i y_i{\bm x}_i\\ 0&=\sum\limits_{i=1}^{n} \alpha_i y_i \end{aligned}$

代入拉格朗日方程得到 $\tilde{L}(\bm\alpha)=\sum\limits_{i=1}^{n} \alpha_i-\frac{1}{2}\sum\limits_{i=1}^{n}\sum\limits_{j=1}^{n}\alpha_i \alpha_j y_i y_j {{\bm x}_i}^{T}{\bm x}_j\\ \text{s.t. }\alpha_i\ge 0,\ i=1,2,\cdots,n\\ \sum\limits_{i=1}^{n}\alpha_i y_i=0$

根据上述条件，我们使用序列最小化算法（Sequential Minimal Optimization, SMO）（详见http://chubakbidpaa.com/svm/2020/12/27/smo-algorithm-simplifed-copy.html）获得 $\bm\alpha$ 的最优值，最后分类器的形式为 $f(\bm x)=\sum\limits_{i=1}^{n}\alpha_i y_i{\bm x}^{T}{\bm x}_i+b$ 其正负代表了 $\bm x$ 处于 $+ 1$ 类还是 $- 1$ 类。