支持向量机SVM（附Python实现代码）

最新推荐文章于 2025-08-14 09:08:12 发布

原创

最新推荐文章于 2025-08-14 09:08:12 发布 · 置顶 · 5.1k 阅读

91 ·

CC 4.0 BY-SA版权

1 前备知识

在这里简略讲一下使用方法，具体原理和推导公式不展开讲了。

1.1 拉格朗日乘子法

拉格朗日乘子法就是求函数 $f (x 1, x 2, . . .)$ 在约束条件 $g (x 1, x 2, . . .) = 0$ 下的极值的方法。其主要思想是将约束条件函数与原函数联立，从而求出使原函数取得极值的各个变量的解。

首先看下面的例题：
$min ~f=2x_{1}^{2}+3x_{2}^{2}+x_{3}^{2} \\ s.t. ~~2x_{1}+x_{2}-1=0 \\ ~~~ ~~~ ~2x_{2}+x_{3}-2=0$
第一步将每个约束条件都分配一个乘子 $\alpha_{i}$ ，在将目标函数和所有的约束函数相加，得到函数：
$L=f+\sum_{i=1}^{m}g_{i} \alpha_{i}$
其中每个约束条件 $g_{i}$ 的右边都是0，所以 $\sum_{i=1}^{m}g_{i}=0$ .
$L=(2x_{1}^{2}+3x_{2}^{2}+x_{3}^{2})+\alpha_{1}(2x_{1}+x_{2}-1)+\alpha_{2}(2x_{2}+x_{3}-2)$
第二步对 $x_{i}$ 求偏导：
$\left\{\begin{matrix}\frac{\partial L}{\partial x_{1}}=4x_{1}+2\alpha_{1} \\\frac{\partial L}{\partial x_{2}}=6x_{2}+\alpha_{1}+2\alpha_{2}\\ \frac{\partial L}{\partial x_{3}}=2x_{3}+\alpha_{2}\end{matrix}\right.$
令偏导数等于0，用 $\alpha_{i}$ 表示 $x$ ：
$\left\{\begin{matrix}x_{1}=-\frac{\alpha_{1}}{2} \\ x_{2}=-\frac{\alpha_{1}+2\alpha_{2}}{6} \\ x_{3}=-\frac{\alpha_{2}}{2}\end{matrix}\right.$
将所得 $x$ 代入约束条件 $g$ 中，求得 $\alpha$ ：
$\left\{\begin{matrix}\alpha_{1}=-2/5 \\ \alpha_{2}=-72/45 \end{matrix}\right.$
得到 $\alpha$ 的值，代入上式得到 $x$ 的最优解。

1.2 KKT条件

我们可以发现，1.1讲的拉格朗日乘子法中，它的约束条件都是等式，那么对于约束条件是不等式的应该怎么办呢？

对于一个新的极值问题：
$min ~f=x_{1}^{2}-2x_{1}+x_{2}^{2}+5 \\ s.t. ~~x_{1}+10x_{2}>10 \\ ~~~ ~~~ ~10x_{1}-x_{2}<10$
为了统一，首先将约束条件都转化为小于号：

$min ~f=x_{1}^{2}-2x_{1}+x_{2}^{2}+5 \\ s.t. ~~10-x_{1}-10x_{2}<0 \\ ~~~ ~~~ ~~10x_{1}-x_{2}-10<0$
依旧是分配乘子并求和：
$L=f+\sum_{i=1}^{m}g_{i} \alpha_{i}+\sum_{i=1}^{m}h_{i} \beta_{i}$
其中 $g_{i}$ 是不等式约束条件， $h_{i}$ 是等式约束条件。(此例中没有等式)
$L=(x_{1}^{2}-2x_{1}+x_{2}^{2}+5)+\alpha_{1}(10-x_{1}-10x_{2})+\alpha_{2}(10x_{1}-x_{2}-10)$
KKT条件就是最优值，KKT条件为：

$L$ 对每个 $x$ 求偏导等于 $0$ ；
$h (x) = 0$ ；
$g_{i}(x)<=0$
$\alpha_{i}>=0$
$\sum\alpha_{i}g_{i}(x)=0$

可以发现，将3、4、5合并就是：
$\alpha_{i}g_{i}(x)=0$
对于上例题，接下来的操作就是：
一、 $L$ 对每个 $x$ 求偏导等于 $0$ 求出 $x$ 的表达式。
二、将 $x$ 的表达式代入 $\alpha_{i}g_{i}(x)=0$ ，求出 $\alpha$ 。
三、将 $\alpha$ 代回，求出 $x$ 。

2 SVM

2.1 简介

支持向量机（support vector machines, SVM）是一种二分类问题模型。
它的目标是找到一个尽可能正确分类，且“确信度”尽可能高的超平面。
其中“确信度”指的是：正确分类的样本点，距离超平面越远，该样本点的确信度就越高。（我对这个样本点分类正确的信任程度）
换而言之，就是该超平面的鲁棒性要好，泛化能力要强。

对于线性可分支持向量机，分类超平面为：
$w^{*}·x+b^{*}=0$
相应的分类决策函数
$f(x)=sign(w^{*}·x+b^{*})$
称为线性可分支持向量机。