优化问题的最优性条件与拉格朗日对偶

最新推荐文章于 2024-03-09 14:18:27 发布

一只干巴巴的海绵

最新推荐文章于 2024-03-09 14:18:27 发布

阅读量789

点赞数 2

分类专栏：数值优化

本文链接：https://blog.csdn.net/Hanx09/article/details/105442836

版权

数值优化专栏收录该内容

4 篇文章 0 订阅

订阅专栏

优化问题的最优性条件

无约束优化问题

设 $f(x):\Omega\rightarrow\mathbb{R},\Omega\in\mathbb{R}^n$ 为连续可微函数，
$\min_{x\in \Omega} f(x)\quad\quad\quad(1)$
优化问题(1)存在局部极小值 $x^*$ 的充分必要条件为：

$\nabla_xf(x^*)=0$ ；
$x^*$ 处的Hessian矩阵半正定，即 $v^T(\nabla^2f(x^*))v\geq0,\forall v\in\mathbb{R}^n$ ，
$\nabla^2f(x)=\left(\begin{matrix} \frac{\partial^2f(x)}{\partial x_1^2}&...&\frac{\partial^2f(x)}{\partial x_1\partial x_n}\\ ...&...&...\\ \frac{\partial^2f(x)}{\partial x_n\partial x_1}&...&\frac{\partial^2f(x)}{\partial x_n^2} \end{matrix}\right)$

约束优化问题

最优化问题的一般数学表现形式：
$\left\{\begin{matrix}\min_{x\in \Omega} f(x)\\ \begin{aligned} s.t. g_i(x)&\leq0,i=1,2,...,k\\ h_j(x)&=0,j=1,2,...,l \end{aligned} \end{matrix}\right.\quad\quad(2)$
其中 $f (x)$ 为目标函数， $g_i(x)$ 为不等式约束， $h_j(x)$ 为等式约束。

线性规划： $f (x)$ 、 $g_i(x)$ 、 $h_j(x)$ 均是线性函数。
非线性规划： $f (x)$ 、 $g_i(x)$ 、 $h_j(x)$ 有一个是非线性函数。
二次规划：目标函数为二次函数，约束函数全为线性函数。
凸优化：目标函数和不等式约束为凸函数，等式约束为线性函数。

KKT条件

定义拉格朗日函数：
$\mathcal{L}(x,\boldsymbol{\mu},\boldsymbol{\lambda})=f(x)+\boldsymbol{\mu}^T\boldsymbol{h}(x)+\boldsymbol{\lambda}^T\boldsymbol{g}(x)$
则 $x^*$ 为局部极小值 $\Longleftrightarrow$ 存在唯一的 $\boldsymbol{\mu}^*$ 、 $\boldsymbol{\lambda}^*$ 满足KKT条件

一阶最优性条件： $\nabla_x\mathcal{L}(x^*,\boldsymbol{\mu},\boldsymbol{\lambda}^*)=\boldsymbol{0}$
拉格朗日乘子： $\lambda_i^*\geq0, \mu^*_i\geq0 \quad\forall i=1,...,k$
互补松弛条件： $\lambda_i^*g(x^*)=0\quad\forall i=1,...,k$
不等式约束条件： $g_i(x^*)\leq0 for i=1,...,k$
等式约束条件： $\boldsymbol{h}(x^*)=0$
二阶最优性条件： $\nabla_{xx}\mathcal{L}(x^*,\boldsymbol{\mu},\boldsymbol{\lambda}^*)$ 正定

约束条件分为等式约束与不等式约束，对于等式约束的优化问题，可以直接应用拉格朗日乘子法去求取最优值；对于含有不等式约束的优化问题，可以转化为在满足 KKT约束条件下应用拉格朗日乘子法求解。拉格朗日求得的并不一定是最优解，只有在凸优化的情况下，才能保证得到的是最优解。

不可微情形：次梯度

对于一个凸函数 $f (x)$ ，若不等式
$f(\bar{x})\geq f(x)+<z,\bar{x}-x>,\forall \bar{x}$

成立，则称向量 $z$ 为函数 $f (x)$ 在 $x$ 处的次梯度。 $f (x)$ 在 $x$ 处的所有次梯度的集合称为次微分，记为 $\partial f(x)$ 。
绝对值函数 $f (x) = ∣ x ∣$ 的次微分为：
$\partial f(x)=\left\{ \begin{matrix} {+1},x>0\\ {-1},x<0\\ [-1,+1],x=0 \end{matrix} \right.$

通常记 $z\in sgn(x)$ 。

设 $f (x)$ 与 $g (x)$ 均可微，给定仅含不等式的凸优化问题：
$\min_{x} f(x)\quad s.t. \quad g(x)\leq0$

定义Lagrange函数为： $\mathcal{L}(x,\lambda)=f(x)+\lambda g(x)$ 。

若至少存在一点 $\bar{x}\in relintD$ 使得 $g(\bar{x})<0$ 成立，则 $x^*$ 为优化问题的最优解，当且仅当，存在唯一的 $\lambda^*\geq0$ 使得KKT条件成立：

拉格朗日条件： $\nabla_{x}L(x^*,\lambda^*)=\nabla f(x^*)+\lambda^*\nabla g(x^*)=0$
可行条件： $g(x^*)\leq0$
互补松弛条件： $\lambda^*g(x^*)=0$

其中 $r e l i n t D$ 表示可行域 $D$ 的相对内部（除去边界的部分）。

若 $f (x)$ 和 $g (x)$ 至少有一个不可微，则将拉格朗日条件中的梯度替换为次梯度，得到广义的KKT理论
$0\in\partial f(x^*)+\lambda^* \partial g(x^*)$

拉格朗日对偶

原始问题

一般约束优化问题：
$\left\{\begin{matrix}\min_{x\in \Omega} f(x)\\\begin{aligned} s.t. g_i(x)&\leq0,i=1,2,...,k\\h_j(x)&=0,j=1,2,...,l \end{aligned} \end{matrix}\right.\quad\quad(2)$

定义拉格朗日函数：
$\begin{aligned}\mathcal{L}(x,\boldsymbol{\mu},\boldsymbol{\lambda})&=f(x)+\sum_{j=1}^{l}\mu_jh_j(x)+\sum_{i=1}^{k}\lambda_ig_i(x)\\&=f(x)+\boldsymbol{\mu}^T\boldsymbol{h}(x)+\boldsymbol{\lambda}^T\boldsymbol{g}(x) \end{aligned}$

定义 $x$ 的函数：
$\theta_P(x)=\max_{\boldsymbol{\mu},\boldsymbol{\lambda};\boldsymbol{\lambda}\geq\boldsymbol{0}}\mathcal{L}(x,\boldsymbol{\mu},\boldsymbol{\lambda})$

则 $\theta_P(x)=\left\{\begin{matrix} f(x)&g_i(x)\leq0,h_j(x)=0\\ +\infty&g_i(x)>0,h_j(x)\neq0 \end{matrix}\right.$

【说明】当 $g_i(x)\leq0,h_j(x)=0$ 时， $\theta_P(x)=\max_{\boldsymbol{\mu},\boldsymbol{\lambda};\boldsymbol{\lambda}\geq\boldsymbol{0}}f(x)+\sum_{i=1}^{k}\lambda_ig_i(x)$ ，取 $\lambda_i=0$ 时 $\mathcal{L}(x,\boldsymbol{\mu},\boldsymbol{\lambda})$ 取得极大值；当 $g_i(x)>0,h_j(x)\neq0$ ，可取 $\lambda_i\rightarrow+\infty,\mu_jh_j(x)\rightarrow+\infty$ 。

这样便把带约束的原始问题转(2)化成等价的无约束问题：
$\min_{x}\theta_P(x)=\min_{x}\max_{\boldsymbol{\mu},\boldsymbol{\lambda};\boldsymbol{\lambda}\geq\boldsymbol{0}}\mathcal{L}(x,\boldsymbol{\mu},\boldsymbol{\lambda})$

对偶问题

定义对偶函数：
$\theta_D(\boldsymbol{\mu},\boldsymbol{\lambda})=\min_{x}\mathcal{L}(x,\boldsymbol{\mu},\boldsymbol{\lambda})$
定义对偶问题：
$\max_{\boldsymbol{\mu},\boldsymbol{\lambda};\boldsymbol{\lambda}\geq\boldsymbol{0}}\theta_D(\boldsymbol{\mu},\boldsymbol{\lambda})=\max_{\boldsymbol{\mu},\boldsymbol{\lambda};\boldsymbol{\lambda}\geq\boldsymbol{0}}\min_{x}\mathcal{L}(x,\boldsymbol{\mu},\boldsymbol{\lambda})$

对偶问题是凸优化问题

$\begin{aligned} \theta_D(\boldsymbol{\mu},\boldsymbol{\lambda})&=\inf_{x}\{f(x)+\sum_{j=1}^{l}\mu_jh_j(x)+\sum_{i=1}^{k}\lambda_ig_i(x)\}\\&=-\sup_{x}\{-f(x)-\sum_{j=1}^{l}\mu_jh_j(x)-\sum_{i=1}^{k}\lambda_ig_i(x)\} \end{aligned}$
$\max_{\boldsymbol{\mu},\boldsymbol{\lambda};\boldsymbol{\lambda}\geq\boldsymbol{0}}\theta_D(\boldsymbol{\mu},\boldsymbol{\lambda})=\min_{x}\sup_{x}\{-f(x)-\sum_{j=1}^{l}\mu_jh_j(x)-\sum_{i=1}^{k}\lambda_ig_i(x)\}$
仿射函数既是凸函数也是凹函数，凸函数的上确界仍是凸函数。

对偶问题的几何解释

假设要求解的原始问题为：
$\min_{x\in \Omega} f(x)\quad s.t.\quad g(x)\leq0$
拉格朗日函数： $\mathcal{L}(x,\lambda)=f(x)+\lambda g(x)$

定义如下集合：
$\mathcal{G}=\{(u,t)|u=g(x),t=f(x),x\in\Omega\}$

假设原始问题、对偶问题最优值均存在，记原始问题最优值为 $p^*$ ，对偶问题最优值为 $d^*$ ，则
$p^*=\inf\{t|(u,t)\in\mathcal{G},u\leq0\}$

$d^*=\max_\lambda\min_{x}\mathcal{L}(x,\lambda)=\max_\lambda\min_{x}(t+\lambda u)=\max_\lambda m(\lambda)$

其中 $m(\lambda)=\min_{x}(t+\lambda u)=\inf_x\{t+\lambda u|(u,t)\in\mathcal{G}\}$ 。

$p^*$ ： $p *$ 的表达式式表明原始问题最优值为在区域 $\mathcal{G}$ 内，寻找在 $u\leq0$ 的条件下 $t$ 的最小值，在 $t - u$ 图中反映为，将 $\mathcal{G}$ 负 $u$ 半轴区域投影到 $t$ 轴，得到的 $t$ 轴上的线段的最小值。
$d^*$ ：首先关于直线 $t+\lambda u=\Delta$ 需指出：(1)纵轴截距为 $\Delta$ ；(2)斜率为 $-\lambda$ 。 $d *$ 表达式中，对给定的 $\lambda$ ， $m(\lambda)$ 为在区域 $\mathcal{G}$ 内，寻找 $t+\lambda u$ 的最小值，在 $t - u$ 图中反映为，给定斜率 $\lambda$ ，与 $\mathcal{G}$ 相交的直线 $t+\lambda u=\Delta$ 中纵轴截距最小的直线对应的 $\Delta$ ；不同的 $\lambda$ 反映直线不同的斜率。

原始问题与对偶问题的关系

假设原始问题、对偶问题都有最优值，记原始问题、对偶问题的最优值分别为 $p^*=\min_{x} \theta_P(x)=\min_{x}\max_{\boldsymbol{\mu},\boldsymbol{\lambda};\boldsymbol{\lambda}\geq\boldsymbol{0}}\mathcal{L}(x,\boldsymbol{\mu},\boldsymbol{\lambda})$ $d^*=\max_{\boldsymbol{\mu},\boldsymbol{\lambda};\boldsymbol{\lambda}\geq\boldsymbol{0}}\theta_D(\boldsymbol{\mu},\boldsymbol{\lambda})=\max_{\boldsymbol{\mu},\boldsymbol{\lambda};\boldsymbol{\lambda}\geq\boldsymbol{0}}\min_{x}\mathcal{L}(x,\boldsymbol{\mu},\boldsymbol{\lambda})$

1. 弱对偶性

定理：对于任何优化问题，均有 $d^*\leq p^*$ （弱对偶性）

证明：

$\forall\quad x,\boldsymbol{\mu},\boldsymbol{\lambda}$ 有：
$\theta_D(\boldsymbol{\mu},\boldsymbol{\lambda})=\min_{x}\mathcal{L}(x,\boldsymbol{\mu},\boldsymbol{\lambda})\leq\mathcal{L}(x,\boldsymbol{\mu},\boldsymbol{\lambda})\leq\max_{\boldsymbol{\mu},\boldsymbol{\lambda};\boldsymbol{\lambda}\geq\boldsymbol{0}}\mathcal{L}(x,\boldsymbol{\mu},\boldsymbol{\lambda})=\theta_P(x)$
由任意性得：
$d^*=\max_{\boldsymbol{\mu},\boldsymbol{\lambda};\boldsymbol{\lambda}\geq\boldsymbol{0}}\theta_D(\boldsymbol{\mu},\boldsymbol{\lambda})\leq \min_{x} \theta_P(x)=p^*$

推论：设 $x^*;\boldsymbol{\mu}^*,\boldsymbol{\lambda}^*$ 分别为原始问题和对偶问题的可行解，且 $\theta_D(\boldsymbol{\mu}^*,\boldsymbol{\lambda}^*)=\theta_P(x^*)$ ，则 $x^*;\boldsymbol{\mu}^*,\boldsymbol{\lambda}^*$ 分别为原始问题和对偶问题的最优解。

证明：

对原始问题的任一可行解 $x$ ，由上述定理， $\theta_P(x)\geq\theta_D(\boldsymbol{\mu}^*,\boldsymbol{\lambda}^*)=\theta_P(x^*)$ ，故 $x^*$ 是原始问题的最优解。对偶问题的任一可行解 $\mu,\lambda$ ，由上述定理， $\theta_D(\boldsymbol{\mu},\boldsymbol{\lambda})\leq\theta_P(x^*)=\theta_D(\boldsymbol{\mu}^*,\boldsymbol{\lambda}^*)$ ，故 $\boldsymbol{\mu}^*,\boldsymbol{\lambda}^*$ 是对偶问题的最优解。

2. 强对偶性

定义：强对偶性（strong duality）即满足 $d^*=p^*$ 。

定理：设函数 $f(x),g_i(x)$ 是凸函数， $h_j(x)$ 是仿射函数（最高次数为1的多项式函数），不等式约束是严格可行的，即 $\exists x\quad g_i(x)<0\quad \forall i$ ，则存在 $x^*;\boldsymbol{\mu}^*,\boldsymbol{\lambda}^*$ 分别为原始问题和对偶问题的最优解，且 $d^*=p^*=\mathcal{L}(x^*;\boldsymbol{\mu}^*,\boldsymbol{\lambda}^*)$ 。

定理描述的这类优化问题一定满足强对偶性。

KKT条件：

设函数 $f(x),g_i(x)$ 是凸函数， $h_j(x)$ 是仿射函数，不等式约束是严格可行的，则 $x^*;\boldsymbol{\mu}^*,\boldsymbol{\lambda}^*$ 分别为原始问题和对偶问题的最优解 $\Longleftrightarrow$ $x^*;\boldsymbol{\mu}^*,\boldsymbol{\lambda}^*$ 满足Karush-Kuhn-Tucker(KKT)条件：
$\begin{aligned} &1.\nabla_{x}\mathcal{L}(x^*;\boldsymbol{\mu}^*,\boldsymbol{\lambda}^*)=0\\ &2.\lambda_i^*\geq0 for i=1,...,k\\ &3.\lambda_i^*g(x^*)=0 for i=1,...,k\\ &4.g_i(x^*)\leq0 for i=1,...,k\\ &5.\boldsymbol{h}(x^*)=0 \end{aligned}$

即约束优化问题的最优性条件，只不过这里是对上述定理中的优化问题描述了一遍。

强对偶性 $\Leftrightarrow$ KKT条件：

设 $x^*$ 为原始问题的最优解， $\boldsymbol{\mu}^*,\boldsymbol{\lambda}^*$ 为对偶问题的最优解，若满足强对偶性，则 $x^*;\boldsymbol{\mu}^*,\boldsymbol{\lambda}^*$ 满足 KKT 条件，相反地，若满足KKT条件，则满足强对偶性。

证明：

$\begin{aligned}d^*&=\max_{\boldsymbol{\mu},\boldsymbol{\lambda};\boldsymbol{\lambda}\geq\boldsymbol{0}}\theta_D(\boldsymbol{\mu},\boldsymbol{\lambda})=\theta_D(\boldsymbol{\mu}^*,\boldsymbol{\lambda}^*)=\min_{x}\mathcal{L}(x,\boldsymbol{\mu}^*,\boldsymbol{\lambda}^*)\\&\leq\mathcal{L}(x^*,\boldsymbol{\mu}^*,\boldsymbol{\lambda}^*)=f(x^*)+\sum_{j=1}^{l}\mu_jh_j(x^*)+\sum_{i=1}^{k}\lambda_ig_i(x^*)\\&=f(x^*)+\sum_{i=1}^{k}\lambda_ig_i(x^*)\leq f(x^*)=p^*\end{aligned}$

(1)若 $d^*=p^*$ ，则上式不等式全为等式，
$f(x^*)+\sum_{i=1}^{k}\lambda_ig_i(x^*)=f(x^*)\Rightarrow \sum_{i=1}^{k}\lambda_ig_i(x^*)=0\Rightarrow \lambda_ig_i(x^*)=0\forall i$
$\min_{x}\mathcal{L}(x,\boldsymbol{\mu}^*,\boldsymbol{\lambda}^*)=\mathcal{L}(x^*,\boldsymbol{\mu}^*,\boldsymbol{\lambda}^*)\Rightarrow \nabla_{x}\mathcal{L}(x^*;\boldsymbol{\mu}^*,\boldsymbol{\lambda}^*)=0$
推得KKT条件1、3，其他条件为可行性条件。

(2)若KKT条件成立，(1)中箭头反向亦成立，上式不等式全为等式，推得 $d^*=p^*$ 。

凸优化+Slater条件 $\Rightarrow$ 强对偶性：

若原始问题为凸优化问题，且满足slater条件，则存在 $x^*,\boldsymbol{\mu}^*,\boldsymbol{\lambda}^*$ 使得 $x^*$ 为原始问题最优解， $\boldsymbol{\mu}^*,\boldsymbol{\lambda}^*$ 为对偶问题最优解，且满足 $d^*=p^*=\mathcal{L}(x^*,\boldsymbol{\mu}^*,\boldsymbol{\lambda}^*)$ 。