【精简推导】支持向量机（拉格朗日乘子法、对偶函数、KKT条件）

最新推荐文章于 2024-05-16 16:32:17 发布

金融科技自习生

最新推荐文章于 2024-05-16 16:32:17 发布

阅读量2.1k

点赞数 3

分类专栏：机器学习文章标签： SVM 支持向量机支持向量机推导 KKT

本文链接：https://blog.csdn.net/weixin_42147780/article/details/101430798

版权

机器学习专栏收录该内容

21 篇文章 0 订阅

订阅专栏

支持向量机，就是通过找出边际最大的决策边界，来对数据进行分类的分类器。因此，支持向量分类器又叫做最大边际分类器。

（疯狂暗示：这是一个最优化问题啊~）

直接上目标求解函数：

这个式子是支持向量机基本形（这个目标式子的由来可以参考西瓜书）。一看这就是一个二次凸优化问题，虽然可以直接用优化包求解，但是效率不高，而且对于后面引入核函数也不方便。因此我们习惯用拉格朗日乘子法求解这个优化问题。

故事从这里开始：

高等数学教过：求解带约束条件的最优化问题，可以用拉格朗日乘子法，因此上式求解可以写成：

上式 $\alpha _i$ 是拉格朗日乘子，而 x_i 和 y_i 都是我们已知的特征矩阵和标签。拉格朗日函数分为两部分。第一部分是我们的原始损失函数，第二部分加了不等式的约束条件。我们希望， $L(w,b,\alpha )$ 不仅能够代表我们原有的损失函数 f(w) 和约束条件，还能够表示我们想要最小化损失函数来求解和，所以我们要先以 $\alpha$ 为参数，求解 $L(w,b,\alpha )$ 的最大值，然后再以和 $\alpha$ 为参数，求解 $L(w,b,\alpha )$ 的最小值。因此，我们的目标可以写作：

$\min _{w, b} \max _{\alpha_{i} \geq 0} L(w, b, \alpha)\left(\alpha_{i} \geq 0\right)$

--------------------------------------------------【插曲】为什么拉格朗日能转化成其对偶函数？--------------------------------------------------------

对于任何一个拉格朗日函数：

$L(x, \alpha)=f(x)+\sum_{i=1}^{q} \alpha_{i} h_{i}(x)$ ，都存在一个与它相对应的对偶函数 $g(\alpha )$ , $g(\alpha )$ 只带有拉格朗日乘子 $\alpha$ 作为它的唯一参数。如果这个 $L(w,\alpha )$ 的最优解存在，并可以表示为min $\min_{x} L(w,\alpha )$ ，并且对偶函数的最优化也存在，并可以表示为 $\max_{\alpha } g(\alpha )$ ,则我们可以定义一个对偶差异，拉格朗日函数的最优解与其对偶函数的最优解之间的差异值， $\Delta$ ：

$\Delta=\min _{x} L(x, \alpha)-\max _{\alpha} g(\alpha)$

如果 $\Delta =0$ ，则称 $L(w,\alpha )$ 与其对偶函数 $g(\alpha )$ 之间存在强对偶关系。此时我们就可以通过求解对偶函数的最优解来替代求解原始函数的最优解。

什么时候强对偶关系存在？答：拉格朗日必须满足KKT条件：

$\begin{aligned} \frac{\partial L}{\partial x_{i}} &=0, \forall_{i}=1,2, \ldots, d \\ h_{i}(x) \leq 0, & \forall_{i}=1,2, \ldots, q \\ \alpha_{i} & \geq 0, \forall_{i}=1,2, \ldots, q \\ \alpha_{i} h_{i}(x)=0, & \forall_{i}=1,2, \ldots, q \end{aligned}$

首先是所有的一阶导数必须为0，其次约束条件中的函数小于等于0，再其次，拉格朗日乘子大于等于0，以及约束条件乘以拉格朗日乘子必须等于0（即，不同i的取值下，两者之间至少有一个为0）。当所有限制都被满足，则拉格朗日函数 $L(w,\alpha )$ 的最优解与其对偶函数 $g(\alpha )$ 的最优解相等，我们就可以将原始的最优化问题转换成为对偶函数的最优化问题。

-------------------------------------------------------------------------------------------------------------------------------------------------------------------------

先来求解拉格朗日函数：

$\begin{aligned} L(w, b, \alpha) &=\frac{1}{2}\|w\|^{2}-\sum_{i=1}^{N} \alpha_{i}\left(y_{i}\left(\boldsymbol{w} \cdot \boldsymbol{x}_{i}+b\right)-1\right) \\ &=\frac{1}{2}\|w\|^{2}-\sum_{i=1}^{N}\left(\alpha_{i} y_{i} \boldsymbol{w} \cdot \boldsymbol{x}_{i}+\alpha_{i} y_{i} b-\alpha_{i}\right) \\ &=\frac{1}{2}\|w\|^{2}-\sum_{i=1}^{N}\left(\alpha_{i} y_{i} \boldsymbol{w} \cdot \boldsymbol{x}_{i}\right)-\sum_{i=1}^{N} \alpha_{i} y_{i} b+\sum_{i=1}^{N} \alpha_{i} \\ &=\frac{1}{2}\left(\boldsymbol{w}^{T} \boldsymbol{w}\right)^{\frac{1}{2} * 2}-\sum_{i=1}^{N}\left(\alpha_{i} y_{i} \boldsymbol{w} \cdot \boldsymbol{x}_{i}\right)-\sum_{i=1}^{N} \alpha_{i} y_{i} b+\sum_{i=1}^{N} \alpha_{i} \\ &=\frac{1}{2} \boldsymbol{w}^{T} \boldsymbol{w}-\sum_{i=1}^{N}\left(\alpha_{i} y_{i} \boldsymbol{w} \cdot \boldsymbol{x}_{i}\right)-\sum_{i=1}^{N} \alpha_{i} y_{i} b+\sum_{i=1}^{N} \alpha_{i} \end{aligned}$

分别对和求导：

$\begin{aligned} \frac{\partial L(\boldsymbol{w}, b, \alpha)}{\partial \boldsymbol{w}} &=\frac{1}{2} * 2 \boldsymbol{w}-\sum_{i=1}^{N} \alpha_{i} y_{i} \boldsymbol{x}_{i}=\boldsymbol{w}-\sum_{i=1}^{N} \alpha_{i} y_{i} \boldsymbol{x}_{i}=0 \rightarrow \boldsymbol{w}=\sum_{i=1}^{N} \alpha_{i} y_{i} \boldsymbol{x}_{i} \end{aligned}$ （1）

$\frac{\partial L(\boldsymbol{w}, b, \alpha)}{\partial b}=\sum_{i=1}^{N} \alpha_{i} y_{i}=0 \rightarrow \sum_{i=1}^{N} \alpha_{i} y_{i}=0$ （2）

（我们发现两个导数的结果中都有 $\alpha _i$ ，因此到这里还是无法求出和。把1式和2式带入到拉格朗日函数，我们得到一个只含有未知数 $\alpha _i$ 的式子，这个式子被称为拉格朗日对偶函数。把对偶函数的 $\alpha _i$ 结果求解出来，再带入到1,2就得到了w和b的解）

为了把拉格朗日函数转成其对偶问题，我们来看看其是否满足强对偶关系。

其一：我们在上面已经求导让拉格朗日函数对w，b求导等于0，得到式子：

$\begin{aligned}\sum_{i=1}^{N} \alpha_{i} y_{i} \boldsymbol{x}_{i} &=\boldsymbol{w} \\ \sum_{i=1}^{N} \alpha_{i} y_{i}=0 \end{aligned}$

(一阶导数必须为0,第一个条件满足。)

其二：由于最开始的约束有： $y_i(w^Tx_i+b)\geq 1$ ，

因此拉格朗日中约束条件 $-(y_i(w\cdot x_i+b)-1)\leq 0$ （约束条件函数小于0，第二个条件满足）

其三：拉格朗日乘子 $\alpha _i>0$ ，天然满足。

其四：所以随后之剩下约束条件乘以拉格朗日乘子是否等于0成了:

$\alpha _i(y_i(w\cdot x_i+b)-1)=0$

这个条件很容易满足，能够让 $y_i(w\cdot x_i+b)-1= 0$ 的点，就是落在虚线平面上的样本点，也就是支持向量。

所有不是支持向量的样本点必须满足 $\alpha _i=0$ 。满足这个式子，说明了我们求解的函数w,b以及超平面存在，只与支持向量有关，与其他样本点无关。现在KKT条件的四个都满足了，现在可以使用 $L(w,b,\alpha )$ 的对偶函数来求 $\alpha$ 了。求得了 $\alpha$ 再带入1,2式子就搞定了。

转换成对偶形式：

带入2式有：

$\begin{array}{l}{=\frac{1}{2} \boldsymbol{w}^{T} \boldsymbol{w}-\boldsymbol{w}^{T} \boldsymbol{w}+\sum_{i=1}^{N} \alpha_{i}} \\ {=-\frac{1}{2} \boldsymbol{w}^{T} \boldsymbol{w}+\sum_{i=1}^{N} \alpha_{i}}\end{array}$

带入1式有：

$=-\frac{1}{2} \sum_{i=1}^{N} \alpha_{i} y_{i} \boldsymbol{x}_{i}^{T} * \sum_{i=1}^{N} \alpha_{i} y_{i} \boldsymbol{x}_{i}+\sum_{i=1}^{N} \alpha_{i}$

令两个w来源于不同的特征和标签：

$\begin{array}{l}{=-\frac{1}{2} \sum_{i, j=1}^{N} \alpha_{i} y_{i} \boldsymbol{x}_{i}^{T} \alpha_{j} y_{j} \boldsymbol{x}_{j}+\sum_{i=1}^{N} \alpha_{i}} \\ {=\sum_{i=1}^{N} \alpha_{i}-\frac{1}{2} \sum_{i, j=1}^{N} \alpha_{i} \alpha_{j} y_{i} y_{j} \boldsymbol{x}_{i}^{T} \boldsymbol{x}_{j}}\end{array}$

将矩阵相乘成内积形式：

$L_{d}=\sum_{i=1}^{N} \alpha_{i}-\frac{1}{2} \sum_{i, j=1}^{N} \alpha_{i} \alpha_{j} y_{i} y_{j} \boldsymbol{x}_{i} \cdot \boldsymbol{x}_{j}$

函数 L_d 就是我们的对偶函数，对所有存在对偶函数 $g(\alpha )$ 的拉格朗日函数 $L(w,\alpha )$ ，有对偶差异，表示如下：

$\Delta=\min _{x} L(x, \alpha)-\max _{\alpha} g(\alpha)$

则对于我们的 $L(w,b,\alpha )$ 和 L_d 有：

$\Delta=\min _{w, b} \max _{\alpha_{i} \geq 0} L(w, b, \alpha)-\max _{\alpha_{i} \geq 0} L_{d}$

而对于 $L(w,b,\alpha )$ 求偏导并让偏导为0，其实是在求解最小值，所以可以把公式写成：

$\Delta=\min _{w, b} \max _{\alpha_{i} \geq 0} L(w, b, \alpha)-\max _{\alpha_{i} \geq 0} \min _{w, b} L(w, b, \alpha)$

由于所有的KKT条件满足，因此对偶差异 $\Delta =0$ 。

$\min _{w, b} \max _{\alpha_{i} \geq 0} L(w, b, \alpha)=\max _{\alpha_{i} \geq 0} \min _{w, b} L(w, b, \alpha)$

如此，我们只需要求解对偶函数的最大值，就可以求出 $\alpha$ 了。最终我们的目标函数变为：

$\max _{\alpha_{i} \geq 0}\left(\sum_{i=1}^{N} \alpha_{i}-\frac{1}{2} \sum_{i, j=1}^{N} \alpha_{i} \alpha_{j} y_{i} y_{j} \boldsymbol{x}_{i} \cdot \boldsymbol{x}_{j}\right)$

到了这一步，我们就需要使用梯度下降，SMO或者二次规划(QP，quadratic programming)来求解 $\alpha$ 了。

求得参数之后，把w,b带入带决策边界的表达式子 f(x)=w^Tx+b 中。当我们有一个新的样本需要被划分，这个时候把这样本的值带进去就可以求解了：

$f\left(x_{t e s t}\right)=\operatorname{sign}\left(\boldsymbol{w} \cdot \boldsymbol{x}_{t e s t}+b\right)=\operatorname{sign}\left(\sum_{i=1}^{N} \alpha_{i} y_{i} \boldsymbol{x}_{i} \cdot \boldsymbol{x}_{t e s t}+b\right)$