拉格朗日对偶问题与KKT条件

最新推荐文章于 2024-06-08 09:56:40 发布

Taylor Wu

最新推荐文章于 2024-06-08 09:56:40 发布

阅读量6k

点赞数

分类专栏：机器学习优化理论文章标签：机器学习优化理论

机器学习同时被 2 个专栏收录

11 篇文章 0 订阅

订阅专栏

优化理论

4 篇文章 0 订阅

订阅专栏

本篇是写在SVM之前的关于优化问题的一点知识，在SVM中会用到。考虑到SVM之复杂，将其中优化方面基础知识提出，单作此篇。所以，本文也不会涉及优化问题的许多深层问题，只是个人知识范围内所了解的SVM中涉及到的优化问题基础。

一、凸优化问题

在优化问题中，凸优化问题由于具有优良的性质（局部最优解即是全局最优解），受到广泛研究。

对于一个含约束的优化问题：

{min x f (x) s . t . x \in C

其中， f(x)

为一个凸函数，变量

x 的可行域

是一个凸集，那么这个优化问题称为一个凸优化问题。

将上面的约束条件的形式更加明确一点，一个凸优化问题可以写成：

⎧ ⎩ ⎨ ⎪ ⎪ min x f (x) s . t . g i (x) \leq 0 h i (x) = 0

其中， f(x)

当然仍然为一个凸函数，但对约束条件有一定要求：

gi(x) 是凸函数；

hi(x)

为仿射函数。这样的要求当然是为了保证可行域是一个凸集。

不等式约束中 gi(x)

为凸函数，而凸函数的水平截集

{x|gi(x)≤α}

是一个凸集(凸函数的性质)，这就使得不等式约束保证了可行域为凸集；

对于等式约束 hi(x)=0

可以写成：

{h i (x) \leq 0 h i (x) \geq 0

要使得满足条件的 x

组成的集合为凸集，就要求

hi(x) 既是一个凸函数，又是一个凹函数，这样

hi(x)

便只能是仿射函数了。

以上便是凸优化问题的一般形式。常见的线性规划、二次规划、二次约束二次规划等优化问题都是凸优化问题。

二、拉格朗日对偶

抛开凸优化问题，回到一般的优化问题。

一般的优化问题可以写成以下形式：

⎧ ⎩ ⎨ ⎪ ⎪ min x f (x) s . t . g i (x) \leq 0 h i (x) = 0

当然，这里对 f(x)

、

gi(x) 、

hi(x)

都是没有要求的。

根据拉格朗日方法，对应的拉格朗日函数为：

L(x,α,β)=f(x)+∑iαigi(x)+∑iβihi(x)

其中 α

、

β 为拉格朗日乘数（都是向量，其长度分别对应于不等式约束和等式约束的个数），且

αi≥0 、

任意。

定义函数：

θ P (x) = max α, β : α i \geq 0 L (x, α, β)

容易发现：

θ P (x) = {f (x) + \infty g i (x) \leq 0 & h i (x) = 0 g i (x) > 0 | | h i (x) \neq 0

如果原来的约束条件都满足那么 L(x,α,β)=f(x)+∑iαigi(x)+∑iβihi(x)

，最后一项为零，第二项要取得最大值，由于

gi(x)≤0 ，所以只能取

α=0⃗ ，使其取得最大值0，这样

θ P (x) = max α, β : α i \geq 0 L (x, α, β) = f (x)

如果违背了原来的约束条件，比如存在某一个约束 gi(x)>0

，那么可以取

αi 任意大，这样

θP(x)=+∞ 。违反等式约束

hi(x)=0

的情况是类似的。

所以可以认为 θP(x)

是对原理优化问题中的约束条件进行了吸收，是原来的约束优化问题变为无约束优化问题（相对于原来变量

无约束了），即原来的优化问题可以写成：

minxθP(x)=minxmaxα,β:αi≥0L(x,α,β)(1)

现在，称（1）为原问题，这和最初的有约束问题是等价的。

将（1）中min和max交换顺序得到对偶问题：

maxα,β:αi≥0θD(α,β)=maxα,β:αi≥0minxL(x,α,β)(2)

其中

θ D (α, β) = min x L (x, α, β)

记 p∗

为原问题的最优解，对应最优解的最优变量取值为

x∗ ，则

p∗=f(x∗)

；

记 d∗

为对偶问题的最优解，对应最优解的最优变量取值为

α∗ 、

β∗ ，则

d∗=θD(α∗,β∗)

。

下面来说明 d∗≤p∗

。

对于任意 α,β

（

α≥0

）：

θ D (α, β) = min x L (x, α, β) \leq L (x *, α, β) = f (x *) + \sum i α i g i (x *) + \sum i β i h i (x *) \leq f (x *) = p *

第一个不等号成立是显然的，这是由 minxL(x,α,β)

的定义直接得到的；第二个不等号成立是因为

x∗ 是一个可行解，所以约束条件

gi(x)≤0 和

hi(x)=0 都满足，所以

∑iαigi(x∗)≤0 、

∑iβihi(x∗)=0

。

由于以上推导过程中 α

、

β 的任意性，所以

d∗=θD(α∗,β∗)≤p∗

，所以求解对偶问题是在最大化原问题最优解的下界。

通常，对偶问题相对于原问题有比较好的形式（有看到“无论原问题形式如何，对偶问题都是一个凸优化问题”的说法，但没见过证明。），这样，当原问题不好求解时，可以转而求解对偶问题。问题是一般情况下有 d∗≤p∗

，所以求解对偶问题只能得到原问题解的下界，不能保证

d∗=p∗

。

当原问题满足一些条件时，可以保证 d∗=p∗

。

Slater条件：存在 x

，使得不等式约束 gi(x)≤0 严格成立，即 gi(x)<0

。

当原问题为一凸优化问题，且满足Slater条件时，有 d∗=p∗

，这样就原问题和对偶问题的解一致，求解对偶问题即可。显然，Slater是凸优化问题与其对偶问题等价的一个充分条件。

KKT条件是原问题与对偶问题等价的必要条件。考虑一般优化问题（不一定是凸优化），如果有 d∗=p∗

，则：

d * = θ D (α *, β *) = min x L (x, α *, β *) \leq L (x *, α *, β *) = f (x *) + \sum i α i * g i (x *) + \sum i β i * h i (x *) \leq f (x *) = p *

由于 d∗=p∗

，所以上面推导过程中所以的不等号“

≤ ”应该取到等号。第一个等号得到

minxL(x,α∗,β∗)=L(x∗,α∗,β∗) ，这说明

x∗ 是

L(x,α∗,β∗) 的一个极值点，所以

L(x,α∗,β∗) 在

x∗ 处的偏导为零，

∂L(x,α∗,β∗)∂x|x∗=0 ；第二个等号得到

f(x∗)+∑iαi∗gi(x∗)+∑iβi∗hi(x∗)=f(x∗) ，所以

∑iβi∗hi(x∗)=0 、

∑iαi∗gi(x∗)=0 。

∑iβi∗hi(x∗)=0 是显然的，因为根据约束条件本来就有

hi(x∗)=0 ，重点是原本的

∑iαi∗gi(x∗)≤0

现在取到了等号。

综合以上两点，在加上原来的约束，可以得到KKT条件：

⎧ ⎩ ⎨ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ \partial L ( x , α * , β * ) \partial x | x * = 0 \sum i α i * g i (x *) = 0 α i * \geq 0 g i (x *) \leq 0 h i (x *) = 0

KKT条件是 d∗=p∗

的必要条件，给出了当原问题和对偶问题等价时对应最优值点所满足的性质。

尽管KKT条件是 d∗=p∗

的必要条件，但当原问题是凸优化问题时，它就升级为充要条件，也就是只要找到

x∗,α∗,β∗ 满足以上五个条件，那么原问题就和对偶问题就有相同的解，分别在

x∗ 和

(α∗,β∗)

处取得。

另外，根据KKT条件中的 ∑iαi∗gi(x∗)=0

可以得到， gi(x∗)<0⇒αi∗=0 ，反过来说，只有 gi(x∗)=0 ， αi∗ 才有可能不为0，这是SVM中用到的一个重要性质。

Taylor Wu

关注

0
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
拉格朗日对偶问题与KKT条件

本篇是写在SVM之前的关于优化问题的一点知识，在SVM中会用到。考虑到SVM之复杂，将其中优化方面基础知识提出，单作此篇。所以，本文也不会涉及优化问题的许多深层问题，只是个人知识范围内所了解的SVM中涉及到的优化问题基础。一、凸优化问题在优化问题中，凸优化问题由于具有优良的性质（局部最优解即是全局最优解），受到广泛研究。对于一个含约束的优化问题：{minxf(x)s.t.x∈C
复制链接

扫一扫