svm 解得的w和b分别是什么意思_《SVM笔记系列之三》拉格朗日乘数法和KKT条件的直观解释...

最新推荐文章于 2022-10-28 17:36:51 发布

古怪小姐爱喝酒

最新推荐文章于 2022-10-28 17:36:51 发布

阅读量944

点赞数

文章标签： svm 解得的w和b分别是什么意思

本文链接：https://blog.csdn.net/weixin_42351189/article/details/113321717

版权

《SVM笔记系列之三》拉格朗日乘数法和KKT条件的直观解释

前言

在SVM的推导中，出现了核心的一个最优化问题，这里我们简单介绍下最优化问题，特别是带有约束的最优化问题，并且引入拉格朗日乘数法和广义拉格朗日乘数法，介绍并且直观解释了KKT条件，用于解决带约束的最优化问题。本人无专业的数学学习背景，只能在直观的角度上解释这个问题，如果有数学专业的朋友，还望不吝赐教。 如有误，请联系指正。转载请注明出处。

联系方式： e-mail: FesianXu@gmail.com

QQ: 973926198

github: https://github.com/FesianXu

有关代码开源: click

最优化问题

我们在高中，包括在高数中都会经常遇到求解一个函数的最小值，最大值之类的问题，这类问题就是属于最优化问题。比如给出下列一个不带有约束的最优化问题：

equation?tex=%5Cmin_%7Bx%7D+3x%5E2%2B4x%2B5%2C+x+%5Cin+R+%5Ctag%7B1.1%7D+

其中的

我们称为

目标函数(objective function)。这样的问题，直接利用**罗尔定理（Rolle's theorem）**求出其鞍点，又因为其为凸函数而且可行域是整个

，求出的鞍点便是最值点，这个是对于无约束最优化问题的解题套路。如果问题带有约束条件，那么就变得不一样了，如：

equation?tex=%5Cmin_%7Bx%2C+y%7D+3xy%5E2+%5C%5C+s.t.%E3%80%80%E3%80%80%E3%80%804x%2B5y+%3D+10+%5Ctag%7B1.2%7D+

因为此时的约束条件是仿射函数（affine function）[^1]，所以可以利用换元法将

表示为

的函数，从而将目标函数变为无约束的形式，然后利用罗尔定理便可以求出最值点了。然而如果约束条件一般化为

，那么

就不一定可以用其他变量表示出来了，这个时候就要利用**拉格朗日乘数法(Lagrange multipliers )**了。

拉格朗日乘数法(Lagrange multipliers)

我们先一般化一个二元最优化问题为

形式：

equation?tex=%5Cmin_%7Bx%2C+y%7D+f%28x%2C+y%29+%5C%5C+s.t.%E3%80%80%E3%80%80g%28x%2C+y%29+%3D+c+%5Ctag%7B2.1%7D+

将目标函数

和等式约束条件

画出来就如下图所示：

其中的

虚线为等高线，而红线为

这个约束函数曲线与

的交点的连线在

的映射。其中，假设有

，

点为最小值点（最优值点）。

从直观上可以发现，在

与

的非最优化交点A,B,C,D上，其

和

的法线方向并不是共线的，注意，这个相当关键，因为如果不是共线的，说明

与

的交点中，还存在可以取得更小值的点存在。对于A点来说，B点就是更为小的存在。因此，我们从直觉上推论出只有当

与

的法线共线时，才是最小值点的候选点（鞍点）。推论到多元变量的问题的时候，法线便用梯度表示

。于是，我们有原问题取得最优值的必要条件：

equation?tex=%5Cnabla+f%28x%2Cy%29+%3D+%5Cnabla+%5Clambda+%28g%28x%2C+y%29-c%29+%5Ctag%7B2.2%7D+

其中的

表示两个梯度共线。可以简单的变形为

equation?tex=%5Cnabla+L%28x%2C+y%2C+%5Clambda%29+%3D+%5Cnabla+f%28x%2Cy%29+-+%5Cnabla+%5Clambda+%28g%28x%2C+y%29-c%29+%3D+0+%5Ctag%7B2.3%7D+

让我们去掉梯度算子，得出

equation?tex=L%28x%2C+y%2C+%5Clambda%29+%3D+f%28x%2C+y%29+-+%5Clambda%28g%28x%2C+y%29+-+c%29+%5Ctag%7B2.4%7D+

这个时候

取个负号也是不影响的，所以式子

通常写作：

equation?tex=L%28x%2C+y%2C+%5Clambda%29+%3D+f%28x%2C+y%29+%2B+%5Clambda%28g%28x%2C+y%29+-+c%29+%5Ctag%7B2.5%7D+

看！我们得出了我们高数中经常见到的等式约束下的拉格朗日乘数函数的表示方法。

多约束的拉格朗日乘数法

以上，我们讨论的都是单约束的拉格朗日乘数法，当存在多个等式约束时（其实不等式约束也是一样的），我们进行一些推广。先一般化一个二元多约束最小化问题：

equation?tex=%5Cmin_%7Bx%2C+y%7D+f%28x%2C+y%29+%5C%5C+s.t.%E3%80%80%E3%80%80g_i%28x%2C+y%29+%3D+0%2C+i+%3D+1%2C2%2C+%5Ccdots%2CN+%5Ctag%7B2.6%7D+

对于每个目标函数和约束配对，我们有:

equation?tex=L_1%28x+%2Cy+%2C%5Clambda_1%29+%3D+f%28x%2Cy%29%2B%5Clambda_1+g_1%28x%2Cy%29+%5C%5C+%5Cvdots+%5C%5C+L_N%28x%2C+y%2C+%5Clambda_N%29+%3D+f%28x%2Cy%29%2B%5Clambda_N+g_N%28x%2Cy%29+%5C%5C

将上式相加有：

equation?tex=%5Csum_%7Bi%3D1%7D%5EN+L_i%28x%2Cy%2C%5Clambda_i%29%3DN+f%28x%2C+y%29%2B%5Csum_%7Bi%3D1%7D%5EN+%5Clambda_ig_i%28x%2Cy%29+%5Ctag%7B2.7%7D+

定义多约束的拉格朗日函数为：

$equation?tex=L%28x%2Cy%2C%5Clambda%29+%3D+f%28x%2Cy%29%2B%5Cfrac%7B1%7D%7BN%7D+%5Csum_%7Bi%3D1%7D%5EN+%5Clambda_ig_i%28x%2Cy%29+%5Ctag%7B2.8%7D+$

因为

是常数，表示共线的含义而已，所以乘上一个常数

$equation?tex=%5Cfrac%7B1%7D%7BN%7D$ 也不会有任何影响，我们仍然用

表示，因此式子

变成：

equation?tex=L%28x%2Cy%2C%5Clambda%29+%3D+f%28x%2Cy%29%2B%5Csum_%7Bi%3D1%7D%5EN+%5Clambda_ig_i%28x%2Cy%29+%5Ctag%7B2.9%7D+

这就是多约束拉格朗日乘数法的函数表达形式。

一个计算例子

让我们举一个单约束的拉格朗日乘数法的计算例子，例子来源于引用3。给出一个最大化任务：

equation?tex=%5Cmax_%7Bx%2Cy%7D+xy%5E2+%5C%5C+s.t.%E3%80%80%E3%80%80g%28x%2Cy%29%3Ax%5E2%2By%5E2-3%3D0+%5Ctag%7B2.10%7D+

图像如：

只有一个约束，使用一个乘子

，有拉格朗日函数：

equation?tex=L%28x%2Cy%2C%5Clambda%29%3Dxy%5E2%2B%5Clambda%28x%5E2%2By%5E2-3%29+%5C%5C

按照条件求解候选点：

$equation?tex=%5Cnabla_%7Bx%2Cy%2C%5Clambda%7D+L%28x%2Cy%2C%5Clambda%29+%3D+%28%5Cfrac%7B%5Cpartial+L%7D%7B%5Cpartial+x%7D%2C+%5Cfrac%7B%5Cpartial+L%7D%7B%5Cpartial+y%7D%2C+%5Cfrac%7B%5Cpartial+L%7D%7B%5Cpartial+%5Clambda%7D%29%3D%282xy%2B2%5Clambda+x%2C+x%5E2%2B2+%5Clambda+y%2C+x%5E2%2By%5E2-3%29%3D0+%5C%5C$

有

equation?tex=x%28y%2B%5Clambda%29%3D0+%5Ctag%7Bi%7D++

equation?tex=x%5E2%2B2+%5Clambda+y+%3D+0+%5Ctag%7Bii%7D++

equation?tex=x%5E2%2By%5E2%3D3+%5Ctag%7Biii%7D+

根据式子

，解得有：

equation?tex=%28%5Cpm+%5Csqrt%7B2%7D%2C+1%2C+-1%29%3B+%28%5Cpm+%5Csqrt%7B2%7D%2C+-1%2C+1%29%3B+%280%2C+%5Cpm+%5Csqrt%7B3%7D%2C+0%29+%5C%5C

代入

，得到：2， -2， 0，也就是我们需要求得的最大值，最小值。可以从图中看出，

我们观察到其等高线与约束投影线的确是相切的。

广义拉格朗日乘数法(Generalized Lagrange multipliers)

上面我们的拉格朗日乘数法解决了等式约束的最优化问题，但是在存在不等式约束的最优化问题（包括我们SVM中需要求解的最优化问题）上，普通的拉格朗日乘数法并不能解决，因此学者提出了广义拉格朗日乘数法（Generalized Lagrange multipliers），用于解决含有不等式约束的最优化问题。这一章，我们谈一谈广义拉格朗日乘数法。

首先，我们先一般化我们的问题，规定一个二元标准的带有不等式约束的最小化问题(当然可以推广到多元的问题)，如：