最优化理论与方法-第十讲-约束优化-CSDN博客

本文链接：https://blog.csdn.net/scar2016/article/details/140477630

文章目录

1. 约束优化的对偶问题
2 概述：
3. 鸡头和凤尾问题
4. 构建对偶问题：
5. 几何关系映射：
6. 线性规划的对偶问题：

老师讲得贼清楚，太厉害了！！！

1. 约束优化的对偶问题

2 概述：

– 1. 约束优化的对偶问题；
– 2. 弱对偶定理/强对偶定理
– 3. 对偶问题的性质和求解方法

2.1 约束优化问题的一般形式

用原问题(Primal Problem)中的P表示原问题，具体如下：
$\begin{equation} \begin{aligned} &(P)\; \;\min\; f(x)\\ &st.\;\;g_i(x)\le0,i=1,\cdots,m,\\ &\;\;\;\;\;\;h_i(x)=0,i=1,\cdots,l,\\ &\;\;\;\;\;\;x\in X\\ \end{aligned} \end{equation}$
合并上面定义域可得：
$\begin{equation} \begin{aligned} &\min\limits_{x\in S}\;f(x)\\ &S=\{x\in X\big|g_i(x)\le0,i=1,\cdots,m;h_i(x)=0,i=1,\cdots,l\}\\ \end{aligned} \end{equation}$
其中X可能为实数集合 $X=\mathbb{R}^n$ ,可能为整数集合 $X=\mathbb{Z}^n$ ,可能为正整数集合 $X=\mathbb{Z}_+^n$ ,可能是为0,1组合 $X=\{0,1\}^n$ ,等其他的集合。

2.2 原问题和对偶问题

为什么存在原问题和对偶问题呢？
因为原问题P是非凸问题，是一个NP-Hard问题，求解起来特别的费劲，那么我们希望用一个差不多的问题来近似处理，对偶不是相等，它们之间是有相关关系的。鲁棒优化，锥优化中，常常用对偶理论来处理相关优化问题。
线性规划中的原问题：P
$\begin{equation} P\to \min \;\;c^Tx;st:\; Ax=b,x\ge0 \end{equation}$
线性规划中的对偶问题：D,常见解法：单纯形法，内点法
$\begin{equation} D\to \max \;\;b^Ty;st:\; A^Ty\le c \end{equation}$
求解出来的 $y^*$ 就是影子价格shadow price,对偶单纯形法
其中鲁棒优化，锥优化都是要用到"对偶理论"这种工具来进行转换。

2.3 拉格朗日对偶函数

通过原问题转换，我们引入拉格朗日函数：
$\begin{equation} L(x,\lambda,\mu)=f(x)+\sum_{i=1}^m \lambda_ig_i(x)+\sum_{i=1}^l \mu_ih_i(x) \end{equation}$
拉格朗日对偶函数(简称对偶函数)
$\begin{equation} d(\lambda,\mu)=\min \{f(x)+\sum_{i=1}^m \lambda_ig_i(x)+\sum_{i=1}^l \mu_ih_i(x)\big|x\in X\} \end{equation}$
那么我们对偶问题在可行域上的定义如下： $x\in S$ ,其中S是X上的子集，那么我们知道，如果函数在大集合里面得到最小值 $y_1$ ,在小集合里面的得到的最小值为 $y_2$ ，因为大集合里面的范围更大，那肯定 $y_2\le y_1$
$\begin{equation} \min\limits_{x\in X,\lambda>0}d(\lambda,\mu)\le\min\limits_{x\in S,\lambda >0}d(\lambda,\mu) \end{equation}$
$\begin{equation} d(\lambda,\mu)=\min\limits_{x\in S} \{f(x)+\sum_{i=1}^m \lambda_ig_i(x)+\sum_{i=1}^l \mu_ih_i(x)\} \end{equation}$
对于上述函数来说， $\lambda_ig_i(x)<0,\mu_ih_i(x)=0$ 可得，如下：
$\begin{equation} \min\limits_{x\in S} \{f(x)+\sum_{i=1}^m \lambda_ig_i(x)+\sum_{i=1}^l \mu_ih_i(x)\}\le\min\limits_{x\in S}\{f(x)\} \end{equation}$
也就是说，对于任意的 $\lambda\ge0,\mu$ 来说，必有对偶问题的最小值小于等于原问题的最小值：
$\begin{equation} d(\lambda,\mu)\le V(p) \end{equation}$
也就是说，在我们建模过程中，我们知道原问题 $V (P)$ 是非凸，是NP-Hard问题，所以我们需要转换思路，如果能知道原问题的下界也行，这个下界就是上面对偶问题 $d(\lambda,\mu)$ 的上界.
原问题和对偶问题的最小值之间的关系：
也就是说原问题的最小值的下限为对偶问题的最小值的中的最大值。因为对偶问题中的每个 $\lambda_i$ 都会对应一个最小值，那么我们当然希望这个最小值越大越好，原问题的下界越大，这个下界越接近原问题的最小值。
$\begin{equation} \forall (\lambda,\mu),\lambda\ge0,必有 d(\lambda,\mu)\le V(p) \end{equation}$
拉格朗日对偶问题,这里还差一个先求最小，再求最大，写得感觉不规范。
$\begin{equation} \begin{aligned} &(D)\; \;\max\; d(\lambda,\mu)\\ &st.\;\;\lambda_i\ge0,i=1,\cdots,m,\\ \end{aligned} \end{equation}$
整理可得,先求最小，在求最大：
$\begin{equation} \begin{aligned} &(D)\; \;\max\limits_{\lambda\ge 0,\mu}\min\limits_{x\in X}\; L(x,\lambda,\mu)\\ &L(x,\lambda,\mu)= \{f(x)+\sum_{i=1}^m \lambda_ig_i(x)+\sum_{i=1}^l \mu_ih_i(x)\}\\ \end{aligned} \end{equation}$

3. 鸡头和凤尾问题

感性理解：
我们上面看到鸡头问题如下,先找最小的，相当于鸡，再求最大，相当于找鸡头：
$\begin{equation} \begin{aligned} &(D_1)\; \;\max\limits_{\lambda\ge 0,\mu}\min\limits_{x\in X}\; L(x,\lambda,\mu)\\ &L(x,\lambda,\mu)= \{f(x)+\sum_{i=1}^m \lambda_ig_i(x)+\sum_{i=1}^l \mu_ih_i(x)\}\\ \end{aligned} \end{equation}$
现在有一个凤尾问题如下,先找最大的，相当于凤，再求最小，相当于找凤尾：
$\begin{equation} \begin{aligned} &(D_2)\; \;\min\limits_{x\in X}\;\max\limits_{\lambda\ge 0,\mu}\; L(x,\lambda,\mu)\\ &L(x,\lambda,\mu)= \{f(x)+\sum_{i=1}^m \lambda_ig_i(x)+\sum_{i=1}^l \mu_ih_i(x)\}\\ \end{aligned}\end{equation}$
我们可以简单这么类比，鸡头再优秀也比不过凤尾，所以原问题的应该用鸡头问题处理。鸡头里面的值永远小于凤尾。而我们又需要求最小值，所以我们选择先最小，后最大。
理性分析，对于上面凤尾来看，我们先看其中部分
$\begin{equation}\begin{aligned} &(D_2)\; \;\min\limits_{x\in X}\;\max\limits_{\lambda\ge 0,\mu}\; L(x,\lambda,\mu)\\ &L(x,\lambda,\mu)= \{f(x)+\sum_{i=1}^m \lambda_ig_i(x)+\sum_{i=1}^l \mu_ih_i(x)\}\\ \end{aligned}\end{equation}$
但凡 $g_i(x)>0$ ，很容易在求最大中取到 $+\infty$
$\begin{equation}\begin{aligned} &\max\limits_{\lambda\ge 0,\mu}\; L(x,\lambda,\mu)\\ &L(x,\lambda,\mu)= \{f(x)+\sum_{i=1}^m \lambda_ig_i(x)+\sum_{i=1}^l \mu_ih_i(x)\}\\ \end{aligned}\end{equation}$
也只有 $g_i(x)\le0,h_i(x)=0$ 时候， $\max\limits_{\lambda\ge 0,\mu}\; L(x,\lambda,\mu)\ne +\infty$
$\begin{equation}\max\limits_{\lambda\ge 0,\mu} L(x,\lambda,\mu)=\left\{\begin{aligned} %\nonumber f(x)&\;\;,st\; g_i(x)\le0,h_i(x)=0\\\\ +\infty&=othervise \end{aligned}\right.\end{equation}$
再求最小值：
$\begin{equation}\min\limits_{x\in X}\;\max\limits_{\lambda\ge 0,\mu} L(x,\lambda,\mu)=\left\{\begin{aligned} %\nonumber \min \;f(x)&\;\;,st\; g_i(x)\le0,h_i(x)=0\\\\ +\infty&=othervise \end{aligned}\right.\end{equation}$
我们清晰的看出来了，凤尾问题很容易产生正无穷值，无法求出来，最差情况居然为原问题
小结：对偶问题应该先求最小，再求最大。

4. 构建对偶问题：

假设我们有一个原问题如下：
$\begin{equation}\begin{aligned} &(P)\; \;\min\limits_{x\in X}\;f(x)\\ &st:\;g_i(x)\le0;\\ \end{aligned}\end{equation}$

第一步：转换成拉格朗日对偶函数：引入 $\lambda>0$
$\begin{equation}\begin{aligned} &L(x,\lambda)=f(x)+\lambda g(x)\\ &d(\lambda)=\min\limits_{x\in X}\{f(x)+\lambda g(x)\}\\ &(D) \max\limits_{\lambda\ge0}d(\lambda)\\ \end{aligned}\end{equation}$
第二步：在x为定义域下，求最小值
$\begin{equation}\begin{aligned} &d(\lambda)=\min\limits_{x\in X}\{f(x)+\lambda g(x)\}\\ \end{aligned}\end{equation}$
第三步：在 $\lambda\ge0$ 为定义域下，求最大值
$\begin{equation}\begin{aligned} &(D) \max\limits_{\lambda\ge0}d(\lambda)\\ \end{aligned}\end{equation}$
综上所述，对偶函数如下图：
$\begin{equation}\begin{aligned} &(D)\;\; \max\limits_{\lambda\ge0}\min\limits_{x\in X}\{f(x)+\lambda g(x)\}\\\ \end{aligned}\end{equation}$

5. 几何关系映射：

为了方便几何图像解释，我们将 $f (x), g (x)$ 映射到二维图像上如下：
$\begin{equation}\begin{aligned} &g(x)=y;x\in X\\ &f(x)=z; \end{aligned}\end{equation}$

原问题可以转换如下：
$\begin{equation}\begin{aligned} &G=\{(y,z)\big|g(x)=y,f(x)=z,x\in X\}\\ &(P)\;\min\;z,\;st:y\le0,(y,z)\in G; \end{aligned}\end{equation}$
对偶问题如下：
$\begin{equation}\begin{aligned} &\max \limits_{\lambda\ge 0}\min \limits_{(y,z)\in G}\{z+\lambda y\}\\ \end{aligned}\end{equation}$
2D图如图所示：
-简单情况
复杂情况：

6. 线性规划的对偶问题：

给出如下线性规划问题，求其对偶问题：
$\begin{equation}\begin{aligned} &\min \;c^Tx\\ &st; Ax=b,x\ge0,其中，c\in R^n,A\in R^{m\times n},b\in R^m \end{aligned}\end{equation}$
拉格朗日函数：
$\begin{equation} L(x,\mu)=c^Tx+\mu^T(b-Ax) \end{equation}$
对偶问题：
- $\begin{equation} \max\limits_{\mu}\min\limits_{x\ge0}\{c^Tx+\mu^T(b-Ax)\} \end{equation}$
先求内部最小值：
展开公式可得：
- $\begin{equation} \min\limits_{x\ge0}\{c^Tx+\mu^T(b-Ax)\}=\min\limits_{x\ge0}\{(c-A^T\mu )^Tx+ b^T\mu\} \end{equation}$
我们知道， $x\ge0$ ，但凡 $\{c-A^T\mu\}$ 中有一个负数，那么在求整体最小值的时候，就容易出现 $-\infty$ ,所以可得：
$\begin{equation}\min\limits_{x\ge0}\{(c-A^T\mu )^Tx+ b^T\mu\}=\left\{\begin{aligned} %\nonumber \;\;\;b^T\mu,\; c-A^T\mu\ge0\\ -\infty,othervise\\ \end{aligned}\right.\end{equation}$
再求最大值,其中负无穷就不用考虑了：
$\begin{equation}\begin{aligned} &\max \;b^T\mu\\ &st:A^T\mu\le c \end{aligned}\end{equation}$