优化问题-Lagrange函数和共轭函数

昨晚学会了通信

已于 2022-11-14 23:41:42 修改

阅读量552

点赞数

分类专栏：通信优化算法文章标签：算法数字通信

于 2022-11-13 23:51:00 首次发布

本文链接：https://blog.csdn.net/qq_33668008/article/details/127839346

版权

通信优化算法专栏收录该内容

7 篇文章 89 订阅

订阅专栏

文章目录

Lagrange对偶函数
共轭函数
Lagrange对偶函数和共轭函数的关系

利用对偶函数可以从对偶函数最大化的角度来分析原始问题的最小化，这类似于信号分析中，通过信号的频域特性来分析其时域特性。相当于对优化问题另一个维度的解释， 对偶在理解和求解优化问题中起着关键的作用

Lagrange对偶函数

标准优化问题（不一定为凸）形式：
$\begin{aligned} p^{\star}=\min & \quad f_0(\mathbf{x}) \\ \text { s.t. } & \quad f_i(\mathbf{x}) \leqslant 0, i=1, \ldots, m \\ & \quad h_i(\mathbf{x})=0, i=1, \ldots, p \end{aligned}$
其中，定义域为： $\mathcal{D}=\left(\bigcap_{i=0}^m \operatorname{dom} f_i\right) \cap\left(\bigcap_{i=1}^p \operatorname{dom} h_i\right)$ 。

该问题称为原问题，未知变量称作原始变量。

Lagrange函数的定义为：
$\mathcal{L}(\mathbf{x}, \boldsymbol{\lambda}, \boldsymbol{\nu})=f_0(\mathbf{x})+\sum_{i=1}^m \lambda_i f_i(\mathbf{x})+\sum_{i=1}^p \nu_i h_i(\mathbf{x})$
其定义域为 $\operatorname{dom} \mathcal{L}=\mathcal{D} \times \mathbb{R}^m \times \mathbb{R}^p$ 。 $\boldsymbol{\lambda}=\left[\lambda_1, \ldots, \lambda_m\right]^{\mathrm{T}}$ 和 $\boldsymbol{\nu}=\left[\nu_1, \ldots, \nu_p\right]^{\mathrm{T}}$ 称作对偶变量或者Lagrange乘子。

Lagrange对偶函数（或对偶函数）定义为：
$g(\boldsymbol{\lambda}, \boldsymbol{\nu}) \triangleq \inf _{\mathbf{x} \in \mathcal{D}} \mathcal{L}(\mathbf{x}, \boldsymbol{\lambda}, \boldsymbol{\nu})$

注：不难发现Lagrange函数时凹函数。因为对偶函数是关于 $(\boldsymbol{\lambda}, \boldsymbol{\nu})$ 的放射函数（凹函数）的逐点下确界，因此为凹。（利用上镜图epigraph可以证明。）

其定义域为： $\operatorname{dom} g=\{(\boldsymbol{\lambda}, \boldsymbol{\nu}) \mid g(\boldsymbol{\lambda}, \boldsymbol{\nu})>-\infty\}$

对偶函数和原始问题的关系：
对于任意的 $\boldsymbol{\lambda} \succeq \mathbf{0}$ 和 $\boldsymbol{\nu} \in \mathbb{R}^p$ ，有：

$g(\boldsymbol{\lambda}, \boldsymbol{\nu}) \leqslant p^{\star}$

证明：假设 $\tilde{\mathbf{x}}$ 是原问题的一个可行解，择优：

$\mathcal{L}(\tilde{\mathbf{x}}, \boldsymbol{\lambda}, \nu)=f_0(\tilde{\mathbf{x}})+\sum_{i=1}^m \lambda_i f_i(\tilde{\mathbf{x}})+\sum_{i=1}^p \nu_i h_i(\tilde{\mathbf{x}}) \leqslant f_0(\tilde{\mathbf{x}})$
由此可得：
$p^{\star} \geqslant f_0(\tilde{\mathbf{x}}) \geqslant \mathcal{L}(\tilde{\mathbf{x}}, \boldsymbol{\lambda}, \boldsymbol{\nu}) \geqslant \inf _{\mathbf{x} \in \mathcal{D}} \mathcal{L}(\mathbf{x}, \boldsymbol{\lambda}, \boldsymbol{\nu})=g(\boldsymbol{\lambda}, \boldsymbol{\nu})$

共轭函数

函数 $\mathbb{R}^n \rightarrow \mathbb{R}$ 的共轭函数记作 $f^*: \mathbb{R}^n \rightarrow \mathbb{R}$ ，定义为：

$f^*(\mathbf{y})=\sup _{\mathbf{x} \in \operatorname{dom} f}\left(\mathbf{y}^{\mathrm{T}} \mathbf{x}-f(\mathbf{x})\right)$

其定义域为： $\operatorname{dom} f^*=\left\{\mathbf{y} \mid f^*(\mathbf{y})<\infty\right\}$

不难看出，无论 $f(\mathbf{x})$ 的凹凸性， $f^*(\mathbf{y})$ 是一个凸函数（仿射函数的驻点最大化是凸函数）。

关于共轭函数一些重要的性质：

如果 $f(\mathbf{x})$ 是可微的，则 $\mathbf{y}=\nabla_{\mathbf{x}} f\left(\mathbf{x}^*\right) \in \operatorname{dom} f^*$ 是获得 $f^*(\mathbf{y})$ 的必要条件。（因为共轭函数的最优值必然满足 $\nabla_{\mathbf{x}}\left(\mathbf{y}^{\mathrm{T}} \mathbf{x}-f(\mathbf{x})\right)=\mathbf{0}$ ）。
如果 $f(\mathbf{x})$ 是可微且凸的，则 $\mathbf{y}=\nabla_{\mathbf{x}} f\left(\mathbf{x}^{\star}\right)$ 变为了充分条件，此时有： $f^*(\mathbf{y})=\left(\mathbf{x}^{\star}\right)^{\mathrm{T}} \nabla_{\mathbf{x}} f\left(\mathbf{x}^{\star}\right)-f\left(\mathbf{x}^{\star}\right)$ ，其中 $\mathrm{x}^{\star}$ 由 $\mathbf{y}=\nabla_{\mathbf{x}} f\left(\mathbf{x}^{\star}\right)$ 得到。（成立的原因是，共轭函数的二阶导恰好半正定，因此一阶条件满足的点必是其最优解）。

下面给出一些简单的凸函数的共轭函数：

仿射函数： $\leftrightarrow f^*(y)=-b, y \in\{a\}$
负对数函数： $f(x)=-\log x \leftrightarrow f^*(y)=-1-\log (-y)$
负熵函数： $\log x \leftrightarrow f^*(y)=y \mathrm{e}^{y-1}-\mathrm{e}^{y-1}(y-1)=\mathrm{e}^{y-1}$
严格图二次函数： $f(\mathbf{x})=\frac{1}{2} \mathbf{x}^{\mathrm{T}} \mathbf{Q} \mathbf{x} \leftrightarrow f^*(\mathbf{y})=\frac{1}{2} \mathbf{y}^{\mathrm{T}} \mathbf{Q}^{-1} \mathbf{y}$

一些重要的推论

如果 $f$ 是闭凸函数，则有 $f^{* *}=f$ 。

其证明也很容易，假定 $f$ 是可微的，令 $\mathbf{y}=\nabla f\left(\mathbf{x}_0\right) \in \operatorname{dom} f^*$ ，则 $f^*(\mathbf{y})$ 的共轭为：
$\begin{aligned} f^{* *}(\mathbf{x}) &=\sup _{\mathbf{y} \in \operatorname{dom} f^*}\left\{\mathbf{x}^{\mathrm{T}} \mathbf{y}-f^*(\mathbf{y})\right\} \\ &=\sup _{\mathbf{x}_0 \in \operatorname{dom} f}\left\{\mathbf{x}^{\mathrm{T}} \nabla f\left(\mathbf{x}_0\right)-\nabla f\left(\mathbf{x}_0\right)^{\mathrm{T}} \mathbf{x}_0+f\left(\mathbf{x}_0\right)\right\} \\ &=\sup _{\mathbf{x}_0 \in \operatorname{dom}}\left\{f\left(\mathbf{x}_0\right)+\nabla f\left(\mathbf{x}_0\right)^{\mathrm{T}}\left(\mathbf{x}-\mathbf{x}_0\right)\right\}\\&=f(\mathbf{x}) \end{aligned}$

即时 $f$ 是非凸的，其共轭依然是凸函数，并且此时有 $f^{* *}=g_f^{* *}=g_f$ （ $g_f$ 是函数可微非凸函数 $f$ 的凸包络）

Lagrange对偶函数和共轭函数的关系

考虑如下仿射约束的优化问题：
$\begin{aligned} &\min f_0(\mathbf{x}) \\ &\text { s.t. } \mathbf{x}=\mathbf{0} \end{aligned}$
其Lagrange函数为： $\mathcal{L}(\mathbf{x}, \boldsymbol{\nu})=f_0(\mathbf{x})+\boldsymbol{\nu}^{\mathrm{T}} \mathbf{x}$ ，其对应的对偶函数为：
$\begin{aligned} g(\boldsymbol{\nu}) &=\inf _{\mathbf{x}}\left\{f_0(\mathbf{x})+\boldsymbol{\nu}^{\mathrm{T}} \mathbf{x}\right\} \\ &=-\sup _{\mathbf{x}}\left\{(-\boldsymbol{\nu})^{\mathrm{T}} \mathbf{x}-f_0(\mathbf{x})\right\}=-f_0^*(-\boldsymbol{\nu}) \end{aligned}$
其中， $\operatorname{dom} g=-\operatorname{dom} f_0^*$ 。由于 $f_0^*$ 是凸的，所以 $g(\boldsymbol{\nu})$ 是凹的。

考虑更一般的优化问题形式：
$\begin{array}{ll} \min & f_0(\mathbf{x}) \\ \text { s.t. } & \mathbf{A x} \preceq \mathbf{b}, \mathbf{C x}=\mathbf{d} \end{array}$

此时有：
$\begin{aligned} g(\boldsymbol{\lambda}, \boldsymbol{\nu}) &=\inf _{\mathbf{x}}\left\{f_0(\mathbf{x})+\boldsymbol{\lambda}^{\mathrm{T}}(\mathbf{A} \mathbf{x}-\mathbf{b})+\boldsymbol{\nu}^{\mathrm{T}}(\mathbf{C} \mathbf{x}-\mathbf{d})\right\} \\ &=-\mathbf{b}^{\mathrm{T}} \boldsymbol{\lambda}-\mathbf{d}^{\mathrm{T}} \boldsymbol{\nu}+\inf _{\mathbf{x}}\left\{f_0(\mathbf{x})+\left(\mathbf{A}^{\mathrm{T}} \boldsymbol{\lambda}+\mathbf{C}^{\mathrm{T}} \boldsymbol{\nu}\right)^{\mathrm{T}} \mathbf{x}\right\} \\ &=-\mathbf{b}^{\mathrm{T}} \boldsymbol{\lambda}-\mathbf{d}^{\mathrm{T}} \boldsymbol{\nu}-\sup _{\mathbf{x}}\left\{-\left(\mathbf{A}^{\mathrm{T}} \boldsymbol{\lambda}+\mathbf{C}^{\mathrm{T}} \boldsymbol{\nu}\right)^{\mathrm{T}} \mathbf{x}-f_0(\mathbf{x})\right\} \\ &=-\mathbf{b}^{\mathrm{T}} \boldsymbol{\lambda}-\mathbf{d}^{\mathrm{T}} \boldsymbol{\nu}-f_0^*\left(-\mathbf{A}^{\mathrm{T}} \boldsymbol{\lambda}-\mathbf{C}^{\mathrm{T}} \boldsymbol{\nu}\right) \end{aligned}$

其中， $\operatorname{dom} g=\left\{(\boldsymbol{\lambda}, \boldsymbol{\nu}) \mid-\left(\mathbf{A}^{\mathrm{T}} \boldsymbol{\lambda}+\mathbf{C}^{\mathrm{T}} \boldsymbol{\nu}\right) \in \operatorname{dom} f_0^*\right\}$ 。

例如，最大熵问题：
$\begin{aligned} &\max \left\{\sum_{i=1}^n x_i \log \frac{1}{x_i}\right\} \equiv \min \left\{f_0(\mathbf{x}) \triangleq \sum_{i=1}^n x_i \log x_i\right\}\\ &\text { s.t. } \mathbf{x} \in \mathbb{R}_{+}^n, \mathbf{1}_n^{\mathrm{T}} \mathbf{x}=1 \quad \text { s.t. } \mathbf{x} \in \mathbb{R}_{+}^n, \mathbf{1}_n^{\mathrm{T}} \mathbf{x}=1 \end{aligned}$

由上面常见凸函数的共轭函数有：
$\begin{aligned} f_0^*(\mathbf{y}) &=\sup _{\mathbf{x} \in \mathbb{R}_{+}^n}\left\{\mathbf{y}^{\mathrm{T}} \mathbf{x}-f_0(\mathbf{x})\right\} \\ &=\sum_{i=1}^n \sup _{x_i \in \mathbb{R}_{+}}\left\{y_i x_i-x_i \log x_i\right\}=\sum_{i=1}^n \mathrm{e}^{y_i-1} \end{aligned}$
其中， $\operatorname{dom} f_0^*=\mathbb{R}^n$ 。令： $\mathbf{A}=-\mathbf{I}_n, \mathbf{b}=\mathbf{0}, \mathbf{C}=1_n^{\mathrm{T}}$ ，则有：

$\begin{aligned} g(\boldsymbol{\lambda}, \nu) &=-\nu-f_0^*\left(\boldsymbol{\lambda}-\mathbf{1}_n \nu\right) \\ &=-\nu-\sum_{i=1}^n \mathrm{e}^{\lambda_i-\nu-1}=-\nu-\mathrm{e}^{-\nu-1} \sum_{i=1}^n \mathrm{e}^{\lambda_i} \end{aligned}$