【凸优化】关于 KKT 条件及其最优性

最新推荐文章于 2023-06-06 11:54:27 发布

B417科研笔记

最新推荐文章于 2023-06-06 11:54:27 发布

阅读量2.7k

点赞数 6

分类专栏：通信中的常用数学

本文链接：https://blog.csdn.net/weixin_39274659/article/details/115863150

版权

通信中的常用数学专栏收录该内容

48 篇文章 482 订阅

订阅专栏

拉格朗日对偶

对于一个标准形式的优化问题，我们可以写为：

$\begin{array}{ll} \operatorname{minimize} & f_{0}(x) \\ \text { subject to } & f_{i}(x) \leqslant 0, \quad i=1, \cdots, m \\ & h_{i}(x)=0, \quad i=1, \cdots, p, \end{array}$

我们定义其 拉格朗日函数 为：

$\lambda, \nu)=f_{0}(x)+\sum_{i=1}^{m} \lambda_{i} f_{i}(x)+\sum_{i=1}^{p} \nu_{i} h_{i}(x) \tag{1}$

$\lambda, \nu)$ 被称为 Lagrange 函数，就是在原目标函数上加上了约束条件的加权和。 $\lambda_i$ 代表 $f_i(x)\le 0$ 这一约束的拉格朗日乘子。类似的， $v_i$ 就是 $h_i(x)=0$ 的拉格朗日乘子。

进一步地，在(1)中对 $x$ 取最小，即：
$g(\lambda, \nu)=\inf _{x \in \mathcal{D}} L(x, \lambda, \nu)=\inf _{x \in \mathcal{D}}\left(f_{0}(x)+\sum_{i=1}^{m} \lambda_{i} f_{i}(x)+\sum_{i=1}^{p} \nu_{i} h_{i}(x)\right)$
$\inf$ 代表下界。函数 $g$ 被称为 拉格朗日对偶函数。

注意到 $g(\lambda, \nu)$ 可被视作一簇关于 $\lambda$ 和 $\nu$ 的仿射函数（不同的 $x$ 对应具体不同的仿射函数）的逐点下确界。因此， $g(\lambda, \nu)$ 必定是一个凹函数（详细证明略）。

拉格朗日函数的核心意义在于，给出了最优解的一个下界：

当 $\lambda \succeq 0$ 时，将有：
$g(\lambda, \nu) \leqslant p^{\star} .$
这是因为，对于任意一个原问题的可行点 $\tilde{\boldsymbol{x}}$ , 必有：
$\sum_{i=1}^{m} \lambda_{i} f_{i}(\tilde{x})+\sum_{i=1}^{p} \nu_{i} h_{i}(\tilde{x}) \leqslant 0$
那么：
$L(\tilde{x}, \lambda, \nu)=f_{0}(\tilde{x})+\sum_{i=1}^{m} \lambda_{i} f_{i}(\tilde{x})+\sum_{i=1}^{p} \nu_{i} h_{i}(\tilde{x}) \leqslant f_{0}(\tilde{x})$
而根据 $g$ 的定义，他是 $L$ 函数关于 $x$ 求得的最小值，因此必定有：
$g(\lambda, \nu)=\inf _{x \in \mathcal{D}} L(x, \lambda, \nu) \leqslant L(\tilde{x}, \lambda, \nu) \leqslant f_{0}(\tilde{x})$
也就是说， 对于任意可行点 $\tilde{\boldsymbol{x}}$ 都成立，那么最优点显然也是可行点之一，因此就有
$g(\lambda, \nu) \leqslant p^{\star} .$

KKT条件

首先，我们先直接给出 KKT 条件，为：

$\begin{aligned} &f_{i}\left(x^{\star}\right) \leqslant 0, i =1, \cdots, m \\ &h_{i}\left(x^{\star}\right) =0, i =1, \cdots, p \\ &\lambda_{i}^{\star} \geqslant 0, i=1, \cdots, m \\ &\lambda_{i}^{\star} f_{i}\left(x^{\star}\right) =0, i=1, \cdots, m \\ &\nabla f_{0}\left(x^{\star}\right)+\sum_{i=1}^{m} \lambda_{i}^{\star} \nabla f_{i}\left(x^{\star}\right)+\sum_{i=1}^{p} \nu_{i}^{\star} \nabla h_{i}\left(x^{\star}\right) =0, \end{aligned}$
满足上述条件的点 $x^{\star}$ 就是KKT条件给出的解。

接下来，我们分析 KKT 条件的意义。即，这个 $x^{\star}$ 到底是什么？

首先， 假设原问题就是一个凸问题。也就是说， $f_0(x)$ 是一个凸函数。此时， $x^{\star}$ 就是原问题的最优解。

我们接下来进行相应的证明。

假设 $\tilde{x}, \tilde{\lambda}, \tilde{\nu}$ 是满足KKT条件的点。

由于 $f_0(x)$ 是凸函数，而 $\lambda \succeq 0$ , 因此 $\tilde{\lambda}, \tilde{\nu})$ 是 $x$ 的凸函数。因为 $f_i(x)$ 是凸函数（因为假设原问题是凸问题），而凸函数加凸函数仍是一个凸函数。

因此，最后一个条件即梯度为0代表了 $\tilde{x}$ 为 $L$ 的最小点。因此，有：
$\begin{aligned} g(\tilde{\lambda}, \tilde{\nu}) &=L(\tilde{x}, \tilde{\lambda}, \tilde{\nu}) \\ &=f_{0}(\tilde{x})+\sum_{i=1}^{m} \tilde{\lambda}_{i} f_{i}(\tilde{x})+\sum_{i=1}^{p} \tilde{\nu}_{i} h_{i}(\tilde{x}) \\ &=f_{0}(\tilde{x}) \end{aligned}$
第一个等式来自于 $g$ 的定义： $L$ 关于 $x$ 的下界。最后一个等式成立是因为KKT条件中的
$\lambda_{i}^{\star} f_{i}\left(x^{\star}\right) =0, i=1, \cdots, m$

注意到，也就是说： $g(\tilde{\lambda}, \tilde{\nu}) =f_{0}(\tilde{x})$ ,
而我们上面证明过：
$g(\lambda, \nu) \leqslant p^{\star} .$
因此， $f_{0}(\tilde{x})\leqslant p^{\star}$ 。而 $p^{\star}$ 的定义就是 $f_0(x)$ 的最小值。因此 $f_{0}(\tilde{x})\ge p^{\star}$ 。
所以，有： $f_{0}(\tilde{x}) = p^{\star}$ 。
即： $\tilde{x}$ 就是 $f_0(x)$ 的最优解。

总结一下，结论就是： 当原问题是凸问题时，满足KKT条件的解，就是原问题的解。

但如果原问题不是凸问题的时候呢？
此时 $g(\tilde{\lambda}, \tilde{\nu}) =L(\tilde{x}, \tilde{\lambda}, \tilde{\nu})$ 这一步就不一定成立了，因为导数为0不代表就是最小值。
但是，如果我们已知强对偶性成立，即 $g(\tilde{\lambda}, \tilde{\nu})=p^{\star}$ 时，有：
$\begin{aligned} f_{0}\left(x^{\star}\right) &=g\left(\lambda^{\star}, \nu^{\star}\right) \\ &=\inf _{x}\left(f_{0}(x)+\sum_{i=1}^{m} \lambda_{i}^{\star} f_{i}(x)+\sum_{i=1}^{p} \nu_{i}^{\star} h_{i}(x)\right) \\ & \leqslant f_{0}\left(x^{\star}\right)+\sum_{i=1}^{m} \lambda_{i}^{\star} f_{i}\left(x^{\star}\right)+\sum_{i=1}^{p} \nu_{i}^{\star} h_{i}\left(x^{\star}\right) \\ & \leqslant f_{0}\left(x^{\star}\right) \end{aligned}$
由此可见，两个不等式必须要取等号。因为 $f_{0}\left(x^{\star}\right) =f_{0}\left(x^{\star}\right)$ 。第一个不等号要想成立，那么必须满足KKT条件的最后一个条件：即对 $x^{\star}$ 的导数为0. 而第二个等号要想成立，就必须满足KKT的最后第二个条件。

因此，此时KKT条件时最优解的必要条件（但不一定充分）。

B417科研笔记

关注

6
点赞
踩
30

收藏

觉得还不错? 一键收藏
打赏
0
评论
【凸优化】关于 KKT 条件及其最优性

拉格朗日对偶对于一个标准形式的优化问题，我们可以写为：minimize⁡f0(x) subject to fi(x)⩽0,i=1,⋯ ,mhi(x)=0,i=1,⋯ ,p,\begin{array}{ll}\operatorname{minimize} & f_{0}(x) \\\text { subject to } & f_{i}(x) \leqslant 0, \quad i=1, \cdots, m \\& h_{i}(x)=0,
复制链接

扫一扫