最优化理论与方法-第十讲-弱对偶定理，强对偶定理

取个名字真难呐

已于 2024-07-20 17:40:54 修改

阅读量1k

点赞数 24

文章标签：线性代数机器学习人工智能算法矩阵

于 2024-07-19 15:37:59 首次发布

本文链接：https://blog.csdn.net/scar2016/article/details/140547714

版权

文章目录

1. 弱对偶定理
- 1.1 推论1
- 1.2 推论2
2. duality gap
- 2.1 定义
- 2.2 约束问题
3. 强对偶定理

1. 弱对偶定理

概述：具体详见此节： 最优化理论与方法-第十讲-约束优化
设 $v (P)$ 是原问题 $(P)$ 的最优值， $v (D)$ 是对偶问题 $(D)$ 的最优值，则
$\begin{equation} v(D)\le v(P) \end{equation}$
我们知道对于 $f (x)$ 来说，其最小值为 $v (P)$ ,可得： $v(P)\le f(x)$ ,因为对于对偶问题 $d(\lambda,\mu)$ 来说，其最大值为 $v (D)$ ,所以可得： $d(\lambda,\mu)\le v(D)$
整理可得恒等式：
$\begin{equation} d(\lambda,\mu)\le v(D)\le v(P)\le f(x) \end{equation}$

1.1 推论1

假设在原问题的定义域内存在一个 $\bar{x}\in S$ ,在对偶问题中的定义域内存在一对参数 $(\bar{\lambda},\bar{\mu}),\bar{\lambda}\ge0$ ,满足如下：
$\begin{equation} d(\bar{\lambda},\bar{\mu})=f(\bar{x}) \end{equation}$
那么可得，且这个点同时为原问题和对偶问题的最优解。
$\begin{equation} v(D)= v(P) \end{equation}$
解释：因为满足弱对偶定理和前后相等可得：
$\begin{equation} d(\bar{\lambda},\bar{\mu})\le v(D)\le v(P)\le f(\bar{x}),d(\bar{\lambda},\bar{\mu})=f(\bar{x})\to v(D)=v(P) \end{equation}$

1.2 推论2

如果 $v(P)=-\infty$ ，则可得 $d(\lambda,\mu)=-\infty,\forall \;(\lambda,\mu),\lambda\ge0$
如果 $v(D)=+\infty$ ，则可得 $v(P)=+\infty$ ,原问题P无可行解

2. duality gap

2.1 定义

我们定义duality-gap 表示原问题的最优值减去对偶问题的最优值如下：
$\begin{equation} duality\;gap=v(P)-v(D) \end{equation}$

2.2 约束问题

假设我们有如下约束优化问题：

原问题：
$\begin{equation} \begin{aligned} &(P)\; \;\min\; \{x_1^2+x_2^2\}\\ &st.\;\;-x_1-x_2\le -\frac{1}{2},x\in Z_+^2\\ \end{aligned} \end{equation}$
根据图形可得，当 $x_1=0,x_2=1$ 时可以去的最小值，则 $v (P) = 1$
拉格朗日函数如下：
$\begin{equation} d(x,\lambda)=x_1^2+x_2^2+\lambda(\frac{1}{2}-x_1-x_2) \end{equation}$
对偶问题如下：
$\begin{equation} \max\limits_{\lambda}\min \limits_{(x_1,x_2)}\{d(x,\lambda)\}=\max\limits_{\lambda}\min \limits_{(x_1,x_2)}\{x_1^2+x_2^2+\lambda(\frac{1}{2}-x_1-x_2)\} \end{equation}$
化简如下：
$\begin{equation} \max\limits_{\lambda}\min \limits_{(x_1,x_2)}\{d(x,\lambda)\}=\max\limits_{\lambda}\min \limits_{(x_1,x_2)}\{(x_1-\frac{\lambda}{2})^2+(x_2-\frac{\lambda}{2})^2+\frac{\lambda}{2}-\frac{\lambda^2}{2}\} \end{equation}$
也就是说，当 $\lambda$ 确定时，内部的最小值指的是坐标点 $P(x_1,x_2)$ 与 $Q(\frac{\lambda}{2},\frac{\lambda}{2})$ 的最短距离，那我们就分类讨论 $\frac{\lambda}{2}$ 在坐标轴哪？
当 $\frac{1}{2}<\frac{\lambda}{2}<\frac{3}{2}$ 时，最短的点为 $P = (1, 1)$
$\begin{equation} \min \limits_{(x_1,x_2)}\{d(x,\lambda)\}=\min \limits_{(x_1,x_2)}\{x_1^2+x_2^2+\lambda(\frac{1}{2}-x_1-x_2)\}=2-\frac{3}{2}\lambda \end{equation}$
当 $\frac{3}{2}<\frac{\lambda}{2}<\frac{5}{2}$ 时，最短的点为 $P = (2, 2)$
$\begin{equation} \min \limits_{(x_1,x_2)}\{d(x,\lambda)\}=\min \limits_{(x_1,x_2)}\{x_1^2+x_2^2+\lambda(\frac{1}{2}-x_1-x_2)\}=8-\frac{7}{2}\lambda \end{equation}$
当 $k-\frac{1}{2}<\frac{\lambda}{2}<k+\frac{1}{2}$ 时，最短的点为 $P = (k, k)$
$\begin{equation} \min \limits_{(x_1=k,x_2=k)}\{d(x,\lambda)\}=\min \limits_{(x_1=k,x_2=k)}\{2k^2+\lambda(\frac{1}{2}-2k)\},k=1,2,\cdots,n \end{equation}$
将 $k=1,2,\cdots,n$ 代入可得，根据 $k-\frac{1}{2}<\frac{\lambda}{2}<k+\frac{1}{2}$
$\begin{equation} \max\limits_{\lambda}\min \limits_{(x_1,x_2)}\{d(x,\lambda)\}=\frac{1}{2} \end{equation}$
综上所示， $v(D)=\frac{1}{2},v(P)=1$ ,可得：
$\begin{equation} duality\;gap=v(P)-v(D)=1-\frac{1}{2}=\frac{1}{2} \end{equation}$

3. 强对偶定理

3.1 概述

假设：
1）集合X为非空凸集， $f (x)$ 及 $g_i(x),i=1,2,\cdots,m$ 是凸函数， $h_i(x),i=1,2,\cdots,l$ 均为线性函数。
2）假设存在 $\hat{x}\in X$ 使得 $g_i(\hat{x})<0,i=1,\cdots,m,h_i(\hat{x})=0,i=1,\cdots,l$ ,且
$0\in \mathrm{int}\; h(X)$ ,其中 $h(X)=\{[h_1(x),h_2(x),\cdots,h_l(x)]^T\big|x\in X\}$ ,则强对偶成立，即：
$\begin{equation} \min \{f(x)|x\in S\}=\max \{d(\lambda,\mu)\big|\lambda \ge 0,\mu\} \end{equation}$
假设1保证了G是一个凸函数集
假设2保证了图集G在-y处有阴影
基于如下讨论最优化理论与方法-第十讲-约束优化，可得原问题P的最小值和对偶问题的最大值一致

3.2 证明：

由于 $\hat{x}$ 的存在，则原问题 $(P)$ 有可行解
若 $v(P)=-\infty$ ，根据弱对偶定理推论可得： $d(\lambda,\mu)=-\infty,\forall\;(\lambda,\mu),\lambda \ge0$
若 $v (P) = v$ ，根据弱对偶定理推论可得：不存在 $x\in X$ ，使得 $f(x)<v,g_i(x)\le0,i=1,\cdots,m,h_i(x)=0,i=1,\cdots,l$
定义H函数如下：
$\begin{equation} H=\{\begin{pmatrix}p\\\\q\\\\r\end{pmatrix}\in \mathbb{R}^{1+m+l}\big|f(x)-v<p,g_i(x)\le q_i,i=1,\cdots,m;h_i(x)=r_i,i=1\cdots,l,x\in X\} \end{equation}$
可知：H是凸函数，且 $\begin{pmatrix}0\\\\0\\\\0\end{pmatrix}\notin H$ ,根据凸集分离定理，则存在 $\begin{pmatrix}\lambda_0\\\\\lambda\\\\\mu\end{pmatrix}\neq 0$ ,使得：
$\begin{equation}\begin{pmatrix}\lambda_0\\\\\lambda\\\\\mu\end{pmatrix}^T\begin{pmatrix}p\\\\q\\\\r\end{pmatrix}\ge0,\forall \begin{pmatrix}p\\\\q\\\\r\end{pmatrix}\in \mathrm{d}(H)\end{equation}$
整理可得： $\lambda_0,q$ 为实数，不是向量，不需要转置
$\begin{equation} \lambda_0p+\lambda^Tq+\mu^Tr\ge0\to \lambda_0\ge0,\lambda_i\ge0,i=1,\cdots,m \end{equation}$
由图可得对于任意的 $x\in X$ 来说，都在超平面上方，所以可得：
$\begin{equation} \forall x\in X,\lambda_0\ge 0,\lambda_0[f(x)-v]+\sum_{i=1}^m \lambda_ig_i(x)+\sum_{i=1}^l \mu_ih_i(x)\ge0 \end{equation}$

3.3 证明 $\lambda_0\neq0$

我们可以设 $\lambda_0=0,x=\hat{x}$ 代入可得：
$\begin{equation} \sum_{i=1}^m \lambda_ig_i(\hat{x})+\sum_{i=1}^l \mu_ih_i(\hat{x})\ge0;g_i(\hat{x})\le 0,h_i(\hat{x})=0 \end{equation}$
只要有一个 $\lambda_i>0$ ,那么必然有 $\sum_{i=1}^m \lambda_ig_i(\hat{x})<0$ ,矛盾，所以只能都等于0
$\begin{equation} \lambda_i=0 \end{equation}$
代入到通项可得：
$\begin{equation} \forall x\in X,\sum_{i=1}^l \mu_ih_i(x)\ge0 \end{equation}$
由于已知 $0\in \mathrm{int}\; h(X)$ ,其中 $h(X)=\{[h_1(x),h_2(x),\cdots,h_l(x)]^T\big|x\in X\}$ ，则存在一个 $\tilde{x},\epsilon\to 0$ ,使得：
$\begin{equation} \begin{pmatrix} h_1(\tilde{x})\\\\ \vdots\\\\ h_l(\tilde{x}) \end{pmatrix}=\epsilon \begin{pmatrix} -\mu_1\\\\ \vdots\\\\ -\mu_l \end{pmatrix} \end{equation}$
代入可得：
$\begin{equation} \forall x\in X,\epsilon>0,-\epsilon\sum_{i=1}^l \mu_i^2\ge0\to \mu_i=0 \end{equation}$
综上所述可得：
$\begin{equation} \lambda_0=0,\lambda_i=0,\mu_i=0与题目\begin{pmatrix}0\\\\0\\\\0\end{pmatrix}\notin H,矛盾，所以\lambda_0=0是错误的结论 \end{equation}$
可得：
$\begin{equation} \lambda_0>0 \end{equation}$
我们可以整理公式20可得：
$\begin{equation} [f(x)-v]+\sum_{i=1}^m \frac{\lambda_i}{\lambda_0}g_i(x)+\sum_{i=1}^l \frac{\mu_i}{\lambda_0}h_i(x)\ge0;\forall x\in X \end{equation}$
为了方便后续，我们定义 $\frac{\lambda_i}{\lambda_0}=\bar{\lambda_i}\ge0,\frac{\mu_i}{\lambda_0}=\bar{\mu_i}$
$\begin{equation} [f(x)-v]+\sum_{i=1}^m \bar{\lambda_i}g_i(x)+\sum_{i=1}^l \bar{\mu_i}h_i(x)\ge0;\forall x\in X \end{equation}$
移项可得：
$\begin{equation} f(x)+\sum_{i=1}^m \bar{\lambda_i}g_i(x)+\sum_{i=1}^l \bar{\mu_i}h_i(x)\;\ge \;v;\forall x\in X \end{equation}$
左边其实就是对偶问题，其中参数为 $\bar{\lambda},\bar{\mu}$
$\begin{equation} \mathbb{d}(\bar{\lambda},\bar{\mu})\ge \;v=v(P);\forall x\in X \end{equation}$
因为根据弱对偶定理可得：
$\begin{equation} \mathbb{d}(\lambda,\mu)\le \;v=v(P);\forall x\in X \end{equation}$
综上所述可得：
$\begin{equation} \mathbb{d}(\bar{\lambda},\bar{\mu})=v(P);强对偶成立 \end{equation}$

取个名字真难呐

关注

24
点赞
踩
19

收藏

觉得还不错? 一键收藏
0
评论
最优化理论与方法-第十讲-弱对偶定理，强对偶定理

具体详见此节：vP)(P)vD)(D)vD≤vPfx)vP)vP≤fx)dλμ)vD)dλμ≤vD)dλμ≤vD≤vP≤fxxˉ∈S(λˉμˉλˉ≥0dλˉμˉfxˉvDvPdλˉμˉ≤vD≤vP≤fxˉdλˉμˉfxˉ→vDvP。
复制链接

扫一扫