拉格朗日乘子法和KKT条件

最新推荐文章于 2022-10-30 22:10:46 发布

plane0654

最新推荐文章于 2022-10-30 22:10:46 发布

阅读量869

点赞数

分类专栏： machine learning 文章标签：机器学习

machine learning 专栏收录该内容

5 篇文章 0 订阅

订阅专栏

这是目前看到介绍最清楚的一篇了

原文来自:博客园（华夏35度）http://www.cnblogs.com/zhangchaoyang/articles/2726873.html 作者:Orisun

拉格朗日乘子法(Lagrange Multiplier)和KKT(Karush-Kuhn-Tucker)条件是求解约束优化问题的重要方法，在有等式约束时使用拉格朗日乘子法，在有不等约束时使用KKT条件。前提是：只有当目标函数为凸函数时，使用这两种方法才保证求得的是最优解。

对于无约束最优化问题，有很多经典的求解方法，参见无约束最优化方法。

拉格朗日乘子法

先来看拉格朗日乘子法是什么，再讲为什么。

minf(x)s.t.hi(x)=0i=1,2...,n

这个问题转换为

m i n [f (x) + \sum i = 1 n λ i h i (x)] (1)

其中 λi≠0 ，称为拉格朗日乘子。

下面看一下wikipedia上是如何解释拉格朗日乘子法的合理性的。

现有一个二维的优化问题：

min f (x, y) s . t . g (x, y) = c (2)

我们可以画图来辅助思考。

绿线标出的是约束 g(x,y)=c 的点的轨迹。蓝线是 f(x,y) 的等高线。箭头表示斜率，和等高线的法线平行。

从图上可以直观地看到在最优解处，f和g的法线方向刚好相反（或者说叫梯度共线），即

▽ [f (x, y) + λ (g (x, y) - c)] = 0 λ \neq 0 (3)

而满足 3 的点同时又是 4 的解。

m i n F (x, y) = f (x, y) + λ (g (x, y) - c) (4)

所以 2 和 4 等价。

新方程 F(x,y) 在达到极值时与 f(x,y) 相等，因为 F(x,y) 达到极值时 g(x,y)−c 总等于零。

KKT条件

先看KKT条件是什么，再讲为什么。

l e t L (x, μ) = f (x) + \sum k = 1 q μ k g k (x) (5)

其中 μk≥0,gk(x)≤0

∵μk≥0gk(x)≤0} => μg(x)≤0

∴

max μ L (x, μ) = f (x) (6)

∴

min x f (x) = min x max μ L (x, μ) (7)

上面的推导到此中断一下，我们看另外一个式子。

maxμminxL(x,μ)=maxμ[minxf(x)+minxμg(x)]=maxμminxf(x)+maxμminxμg(x)=minxf(x)+maxμminxμg(x)

这里的 u 和 g 都就向量，所以去掉了下标 k 。另外一些博友不明白上式中 maxμminxf(x)=minxf(x) 是怎么推出来的，其实很简单，因为 f(x) 与变量 u 无关，所以这个等式就是成立的。

又 ∵μk≥0gk(x)≤0} => minxμg(x)={0−∞ifμ=0org(x)=0ifμ>0andg(x)<0

∴maxμminxμg(x)=0 此时 μ=0org(x)=0

∴ max μ min x L (x, μ) = min x f (x) + max μ min x μ g (x) = min x f (x) (8)

此时

μ=0org(x)=0

联合 (7) , (8) 我们得到 minxmaxμL(x,μ)=maxμminxL(x,μ)

亦即 L(x,μ)=f(x)+∑qk=1μkgk(x)μk≥0gk(x)≤0⎫⎭⎬⎪⎪ minxmaxμL(x,μ)=maxμminxL(x,μ)=minxf(x)

我们把 maxμminxL(x,μ) 称为原问题 minxmaxμL(x,μ) 的对偶问题，上式表明当满足一定条件时原问题、对偶的解、以及 minxf(x) 是相同的，且在最优解 x∗ 处 μ=0org(x∗)=0 。把 x∗ 代入 (6) 得 maxμL(x∗,μ)=f(x∗) ，由 (8) 得 maxμminxL(x,μ)=f(x∗) ，所以 L(x∗,μ)=minxL(x,μ) ，这说明 x∗ 也是 L(x,μ) 的极值点，即 ∂L(x,μ)∂x|x=x∗=0 。

最后总结一下：

L(x,μ)=f(x)+∑qk=1μkgk(x)μk≥0gk(x)≤0⎫⎭⎬⎪⎪ ⎧⎩⎨⎪⎪⎪⎪minxmaxμL(x,μ)=maxμminxL(x,μ)=minxf(x)=f(x∗)μkgk(x∗)=0∂L(x,μ)∂x|x=x∗=0

KKT条件是拉格朗日乘子法的泛化，如果我们把等式约束和不等式约束一并纳入进来则表现为：

L(x,λ,μ)=f(x)+∑ni=1λihi(x)+∑qk=1μkgk(x)λi≠0hi(x)=0μk≥0gk(x)≤0⎫⎭⎬⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪ => ⎧⎩⎨⎪⎪⎪⎪minxmaxμL(x,λ,μ)=maxμminxL(x,λ,μ)=minxf(x)=f(x∗)μkgk(x∗)=0∂L(x,λ,μ)∂x|x=x∗=0

注： x,λ,μ 都是向量。

∂L(x,λ,μ)∂x|x=x∗=0 表明 f(x) 在极值点 x∗ 处的梯度是各个 hi(x∗) 和 gk(x∗) 梯度的线性组合。

原文来自:博客园（华夏35度）http://www.cnblogs.com/zhangchaoyang 作者:Orisun

plane0654

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
拉格朗日乘子法和KKT条件

这是目前看到介绍最清楚的一篇了原文来自:博客园（华夏35度）http://www.cnblogs.com/zhangchaoyang 作者:Orisun拉格朗日乘子法(Lagrange Multiplier)和KKT(Karush-Kuhn-Tucker)条件是求解约束优化问题的重要方法，在有等式约束时使用拉格朗日乘子法，在有不等约束时使用KKT条件。前提是：只有当目标函数
复制链接

扫一扫

专栏目录