凸优化之对偶理论的理解

最新推荐文章于 2024-11-03 23:23:42 发布

wowotou1998

最新推荐文章于 2024-11-03 23:23:42 发布

阅读量307

点赞数

分类专栏：凸优化

本文链接：https://blog.csdn.net/qq_26071603/article/details/116228973

版权

对偶理论拉格朗日函数凹函数最优值约束优化

关键词由CSDN通过智能技术生成

凸优化专栏收录该内容

7 篇文章

订阅专栏

对偶理论的理解

对偶

对偶

对偶理论 $\ dual$

有约束问题的无约束形式

对于有约束优化问题

$\begin{aligned} & \text{minimize} \quad f_0(x) \\ & \quad \\ & \text{subject to} \quad \left\{ \begin{array}{rcl} f_i(x) \leqslant 0, & & {i = 1, \cdots ,m}\\ h_i(x) =0, & & {i = 1, \cdots, p}\\ \end{array} \right. \end{aligned}$
定义域
$\mathcal{D} =\bigcap_{i=0}^{m} \operatorname{dom} f_{i} \cap \bigcap_{i=1}^{p} \operatorname{dom} h_{i}$
可转化为无约束优化问题,即
$\begin{aligned} \text{minimize} \quad f_0(x) + \sum_{i=1}^{m} I_{-}(f_i(x)) + \sum_{i=1}^{p} I_{0}(h_i(x)) \end{aligned}$
其中
$\begin{aligned} I_{-}(u) &= \left\{ \begin{array}{rcl} 0 \ & & {u \leqslant 0}\\ \infty & & {u \geq 0}\\ \end{array} \right. \\ \quad \\ I_{0}(u) &= \left\{ \begin{array}{rcl} 1 & & u \in \{ 0 \} \\ 0 & & u \not\in \{ 0 \}\\ \end{array} \right. \end{aligned}$

$I_{0}(u)$ 可看成是集合 ${0\}$ 的示性函数, $I_{-}(u)$ 可看成是对原问题违反约束 $f_i(x)$ 的一种惩罚,一旦原问题违反约束, 则 $f_i(x)$ 的值会大于0, 则 $I_{-}(u) = \infty$ , 整个无约束函数的最小值为 $\infty$ .

$\text{Lagrange}$ 函数,自变量为 $x,\lambda, v$

$\text{Lagrange}$ 函数的定义为:
$\begin{aligned} L(x,\lambda,v) = f_0(x) + \sum_{i=1}^{m} \lambda_i f_i(x) + \sum_{i=1}^{p} v_i h_i(x), x \in R^n, \lambda \in R_+^m , v \in R^p \end{aligned}$
可以看出,有约束问题的无约束形式与 $\text{Lagrange}$ 函数有些相似,我们可以认为, $\text{Lagrange}$ 函数用线性的惩罚函数(或者惩罚力度比较弱的惩罚函数)代替了函数 $I_{0}(u)$ , $I_{-}(u)$ .

对于不等式约束,如果 $f_i(x) \geq 0$ , 那么惩罚力度开始增加, 如果 $f_i(x) < 0$ ,不但没有惩罚,反而会有奖励,即 $\text{minimize} \ L(x,\lambda,v)$ 会取到更小的值.

对于等式约束,待补充.

用线性函数 $\lambda_i u_i$ 去逼近 $I_-(u)$ 是远远不够的,但是线性函数至少可以看成是示性函数的一个下估计, 我们可以得到, 对偶函数是原问题最优函数值的一个下界.

$\text{Lagrange}$ 对偶函数,自变量为 $\lambda, v$

$\text{Lagrange}$ 对偶函数的定义为:
$g(\lambda,v) = \underset{x \in \mathcal{D}}{\inf} \ L(x,\lambda,v) = \underset{x \in \mathcal{D}}{\inf} \ \left ( f_0(x) + \sum_{i=1}^{m} \lambda_i f_i(x) + \sum_{i=1}^{p} v_i h_i(x) \right ), \\ \lambda \in R_+^m , v \in R^p, \mathcal{D}是原问题的定义域$
$\text{Lagrange}$ 对偶函数相比于 $\text{Lagrange}$ 函数,多出了对 $\in \mathcal{D})$ 求最大下确界的过程,变量 $x$ 被对偶函数所隐藏.

注意,这里 $\text{Lagrange}$ 对偶函数和原问题的定义域是相同的,都为 $\mathcal{D}$ , 这很关键.

证明 $\text{Lagrange}$ 对偶函数构成了原问题最优值 $p^*$ 的下界

对任意的 $\lambda \succeq 0$ 和 $v$ , 下式成立:

$g(\lambda,v) \leqslant p^*$

证明:

设 $\tilde{x}$ 是原问题在定义域 $\mathcal{D}$ 中的一个可行点(不一定是最优点), 正是由于 $\tilde{x} \in \mathcal{D}$ ,所以有 $f_i(\tilde{x}) \leqslant 0,h_i(\tilde{x}) = 0,$ 根据假设 $\lambda \succeq 0,$ 我们有

$\begin{aligned} & \sum_{i=1}^{m} \lambda_i f_i(\tilde{x}) + \sum_{i=1}^{p} v_i h_i(\tilde{x})\\ &= \sum_{i=1}^{m} \lambda_i f_i(\tilde{x}) + \sum_{i=1}^{p} v_i* 0\\ &= \sum_{i=1}^{m} \lambda_i f_i(\tilde{x}) \leqslant 0\\ \end{aligned}$
则
$\begin{aligned} L(\tilde{x}, \lambda,v) &=f_0(\tilde{x}) + \sum_{i=1}^{m} \lambda_i f_i(\tilde{x}) + \sum_{i=1}^{p} v_i h_i(\tilde{x}) \\ &=f_0(\tilde{x}) + \sum_{i=1}^{m} \lambda_i f_i(\tilde{x}) \leqslant f_0(\tilde{x}) \end{aligned}$
式 $\underset{x \in \mathcal{D}}{\inf}\ L(x, \lambda,v)$ 表明函数 $\lambda,v)$ 在集合 $\mathcal{D}$ 中的下界, 因此有
$\begin{aligned} g(\lambda,v) = \underset{x \in \mathcal{D}}{\inf}\ L(x, \lambda,v) \leqslant L(\tilde{x}, \lambda,v) \leqslant f_0(\tilde{x}) \end{aligned}$
因此 $\text{Lagrange}$ 对偶函数构成了原问题最优值 $p^*$ 的下界.

证明 $\text{Lagrange}$ 对偶函数为凹函数

无论原问题是否为凸问题, 无论 $f_0(x),f_i(x),h_i(x)$ 是什么类型的函数. 但 $\text{Lagrange}$ 对偶函数是一个凹函数, 证明思路如下:
集合 $\mathcal{D}$ 无论是否连续,都可以看成是变量 $x$ 的有限集合,当对偶函数 $g(\lambda,v)$ 中的
$\lambda,v$ 为定值时,则对于集合 $\mathcal{D}$ 中的每一个 $x_i$ 都有 $f_i(x_i)$ , $h_i(x_i)$ 与之对应,

令
$\begin{aligned} \lambda &= [\ \lambda_1, \lambda_2, \cdots, \lambda_m \ ] \\ v &= [\ v_1, v_2, \cdots, v_p \ ] \\ F(x) &= [\ f_1(x), f_2(x), \cdots, f_m(x) \ ] \\ H(x) &= [\ h_1(x), h_2(x), \cdots, h_p(x) \ ] \\ \mathcal{D} &= \{ x_0,x_1,\cdots , x_n \}, \quad 当集合\mathcal{D}为连续值集合时,n \rightarrow \infty \end{aligned}$
且
$\begin{aligned} g(\lambda,v) &= \underset{x \in \mathcal{D}}{\inf} \ L(x,\lambda,v) \\ &= \underset{x \in \mathcal{D}}{\inf} \ \left ( f_0(x) + \sum_{i=1}^{m} \lambda_i f_i(x) + \sum_{i=1}^{p} v_i h_i(x) \right ) \\ &= \underset{x \in \mathcal{D}}{\inf} \ \left ( f_0(x) + \lambda F(x)^T + v H(x)^T \right ) \\ \end{aligned}$
则有
$\begin{aligned} g(\lambda,v) &= \underset{x \in \mathcal{D}}{\inf} \ L(x,\lambda,v) \\ &= \inf \left [ \left ( f_0(x_0) + \lambda F(x_0)^T + v H(x_0)^T \right ), \left ( f_0(x_1) + \lambda F(x_1)^T + v H(x_1)^T \right ), \cdots, \left ( f_0(x_n) + \lambda F(x_n)^T + v H(x_n)^T \right ) \right ] \\ \end{aligned}$
为了方便书写和观察，令
$\begin{aligned} A_i &= f_0(x_i) \\ B_i &= F(x_i) \\ C_i &= H(x_i)\\ \end{aligned}$
则
$\begin{aligned} g(\lambda,v) &= \underset{x \in \mathcal{D}}{\inf} \ L(x,\lambda,v) \\ &= \inf \left [ \left ( f_0(x_0) + \lambda F(x_0)^T + v H(x_0)^T \right ), \left ( f_0(x_1) + \lambda F(x_1)^T + v H(x_1)^T \right ), \cdots, \left ( f_0(x_n) + \lambda F(x_n)^T + v H(x_n)^T \right ) \right ] \\ &= \inf \left [ \left ( A_0 + \lambda B_0^T + v C_0^T \right ), \left ( A_1 + \lambda B_1^T + v C_1^T \right ), \cdots, \left ( A_n + \lambda B_n^T + v C_n^T \right ) \right ] \\ \end{aligned}$
易知 $A_i + \lambda B_i^T + v C_i^T$ 是关于变量 $\lambda,v$ 的仿射函数
因为 凹函数的逐点最大下确界仍是凹函数(仿射函数即是凹函数,也是凸函数), 因此 $\text{Lagrange}$ 对偶函数仍是凹函数.

$\text{Lagrange}$ 对偶问题

$\text{Lagrange}$ 对偶问题的形式如下所示:
$\begin{aligned} & \text{maximize} \quad g(\lambda,v) \\ & \quad \\ & \text{subject to} \quad \lambda \succeq 0 \end{aligned}$
$\text{Lagrange}$ 对偶问题 可以用来寻找 $\text{Lagrange}$ 对偶函数 的最大值.由前面的内容可知, $\text{Lagrange}$ 对偶函数 可以在 $\lambda, v$ 确定的情况下,对 $\ (x \in \mathcal{D})$ 求 $\text{Lagrange}$ 函数 的最大下确界(最小值),我们将 $\text{Lagrange}$ 对偶问题写成如下形式:
$\begin{aligned} \underset{\lambda \succeq 0}{\text{max}} \underset{x \in \mathcal{D}}{\inf} \ L(x,\lambda,v) \end{aligned}$
或者如下形式(当 $\text{max}$ 可以取到时)
$\begin{aligned} \underset{\lambda \succeq 0}{\sup} \underset{x \in \mathcal{D}}{\inf} \ L(x,\lambda,v) \end{aligned}$

对 $\text{Lagrange}$ 对偶的鞍点解释, 矮个子里挑高个子和高个子里挑矮个子

为了简化讨论,假设原问题没有等式约束
$\begin{aligned} & \text{minimize} \quad f_0(x) \\ & \quad \\ & \text{subject to} \quad f_i(x) \leqslant 0, & & {i = 1, \cdots ,m}\\ \end{aligned}$
原问题的最优值 $p^*$ 与下面这个问题的最优值等价:

构造原问题的 $\text{Lagrange}$ 函数,即:
$\begin{aligned} L(x,\lambda) = f_0(x) + \sum_{i=1}^{m} \lambda_i f_i(x) \end{aligned}$
求 $\text{Lagrange}$ 函数在 $x$ 确定的情况下, 对 $\lambda \succeq 0$ 求最小上确界:
$\begin{aligned} \underset{\lambda \succeq 0}{\sup} L(x,\lambda) &= \underset{\lambda \succeq 0}{\sup} \Big ( f_0(x) + \sum_{i=1}^{m} \lambda_i f_i(x) \Big ) \\ &= \left\{ \begin{array}{rcl} f_0(x) & & {f_i(x) \leqslant 0, i = 1, \cdots ,m}\\ \infty \quad & & {\text{otherwise}}\\ \end{array} \right. \end{aligned}$
当 $f_i(x) > 0$ 时,只需要让相应的 $\lambda_i= + \infty$ 其余 $\lambda_j= 0 \ (i \neq j)$ ,则 $\text{Lagrange}$ 函数对 $\lambda \succeq 0$ 求最小上确界的结果为 $+\infty$ , 此时无论 $f_0(x)$ 的值是多少都无意义, 在这里不考虑 $f_0(x_i)= \pm \infty$ . 这种情况下, 我们将无法取得一个有效值, 因此讨论这种情况的最小上确界无意义.

求得 $\underset{\lambda \succeq 0}{\sup} L(x,\lambda)$ 的结果之后, 再求在 $\in \mathcal{D}$ 的情况下对 $\underset{\lambda \succeq 0}{\sup} L(x,\lambda)$ 求最大下确界, 即 $\underset{x \in \mathcal{D}}{\inf} \ \underset{\lambda \succeq 0}{\sup} L(x,\lambda)$ , 这等价于求解原问题. 令原问题的最优值为 $p^*$ :
$\begin{aligned} p^* &= \underset{x \in \mathcal{D}}{\inf} \ \underset{\lambda \succeq 0}{\sup} L(x,\lambda) \\ &=\underset{x \in \mathcal{D}}{\inf} \ \underset{\lambda \succeq 0}{\sup} \Big ( f_0(x) + \sum_{i=1}^{m} \lambda_i f_i(x) \Big )\\ &=\underset{x \in \mathcal{D}}{\inf} \ \left\{ \begin{array}{rcl} f_0(x) & & {f_i(x) \leqslant 0, i = 1, \cdots ,m}\\ \infty \quad & & {\text{otherwise}}\\ \end{array} \right.\\ &=\underset{x \in \mathcal{D}}{\inf} \ f_0(x) \quad \text{subject to} \quad f_i(x) \leqslant 0, i = 1, \cdots ,m \\ &=\underset{x \in \mathcal{D}}{\text{min}} \ f_0(x) \quad \text{subject to} \quad f_i(x) \leqslant 0, i = 1, \cdots ,m \\ & (如果最小值可以取到,则 \sup 与\text{min}等价 ) \end{aligned}$
设对偶问题的最优值为 $d^*$ , 根据对偶问题的定义:
$\begin{aligned} d^* &= \underset{\lambda \succeq 0}{\sup} \ g(\lambda,v) \\ &= \underset{\lambda \succeq 0}{\sup} \ \underset{x \in \mathcal{D}}{\inf} \ L(x,\lambda) \\ &= \underset{\lambda \succeq 0}{\sup} \ \underset{x \in \mathcal{D}}{\inf} \ \Big ( f_0(x) + \sum_{i=1}^{m} \lambda_i f_i(x) \Big )\\ \end{aligned}$
因此弱对偶性可以表示为下述不等式
$\begin{aligned} 对偶问题的最优值 \ d^* & \leqslant 原问题的最优值 \ p^* \\ d^* & \leqslant p^* \\ \underset{\lambda \succeq 0}{\sup} \ \underset{x \in \mathcal{D}}{\inf} \ L(x,\lambda) & \leqslant \underset{x \in \mathcal{D}}{\inf} \ \underset{\lambda \succeq 0}{\sup} \ L(x,\lambda) \end{aligned}$
而强对偶性可以表示为下述等式
$\begin{aligned} 对偶问题的最优值 \ d^* & = 原问题的最优值 \ p^* \\ d^* & = p^* \\ \underset{\lambda \succeq 0}{\sup} \ \underset{x \in \mathcal{D}}{\inf} \ L(x,\lambda) & = \underset{x \in \mathcal{D}}{\inf} \ \underset{\lambda \succeq 0}{\sup} \ L(x,\lambda) \end{aligned}$
当 $p^* = d^*$ 时,强对偶成立, 强对偶性意味着对 $x$ 求极小和对 $\lambda \succeq 0$ 求极大可以互换而不影响结果.

鞍点定义

我们称一对 $\tilde{w} \in W$ 是函数 $f$ (以及 $W$ 和 $Z$ ) 的鞍点，如果对任意 $\in W$ 和 $\in Z$ 下式成立
$f(\tilde{w}, z) \leqslant f(\tilde{w}, \tilde{z}) \leqslant f(w, \tilde{z}).$
换言之， $g_1(w) = f(w, \tilde{z})$ 在 $\tilde{w}$ 处取得最小值(关于变量 $\in W$ )， $g_2(z) = f(\tilde{w}, z)$ 在 $\tilde{z}$ 处取得最大值（关于变量 $\in W$ ):
$f(\tilde{w}, \tilde{z})=\inf _{w \in W} f(w, \tilde{z}), \quad f(\tilde{w}, \tilde{z})=\sup _{z \in Z} f(\tilde{w}, z)$
上式意味着强极大极小性质成立，且共同值为 $f(\tilde{w}, \tilde{z})$ .
回到我们关于 $\text{Lagrange}$ 对偶的讨论,如果 $x^*$ 和 $\lambda^*$ 分别是原问题和对偶问题的最优点,且强对偶性成立,则它们是 $\text{Lagrange}$ 函数的一个鞍点.