文章目录
1. 弱对偶定理
- 概述:
具体详见此节:
最优化理论与方法-第十讲-约束优化
设 v ( P ) v(P) v(P)是原问题 ( P ) (P) (P)的最优值, v ( D ) v(D) v(D)是对偶问题 ( D ) (D) (D)的最优值,则
v ( D ) ≤ v ( P ) \begin{equation} v(D)\le v(P) \end{equation} v(D)≤v(P) - 我们知道对于 f ( x ) f(x) f(x)来说,其最小值为 v ( P ) v(P) v(P),可得: v ( P ) ≤ f ( x ) v(P)\le f(x) v(P)≤f(x),因为对于对偶问题 d ( λ , μ ) d(\lambda,\mu) d(λ,μ)来说,其最大值为 v ( D ) v(D) v(D),所以可得: d ( λ , μ ) ≤ v ( D ) d(\lambda,\mu)\le v(D) d(λ,μ)≤v(D)
- 整理可得恒等式:
d ( λ , μ ) ≤ v ( D ) ≤ v ( P ) ≤ f ( x ) \begin{equation} d(\lambda,\mu)\le v(D)\le v(P)\le f(x) \end{equation} d(λ,μ)≤v(D)≤v(P)≤f(x)
1.1 推论1
- 假设在原问题的定义域内存在一个
x
ˉ
∈
S
\bar{x}\in S
xˉ∈S,在对偶问题中的定义域内存在一对参数
(
λ
ˉ
,
μ
ˉ
)
,
λ
ˉ
≥
0
(\bar{\lambda},\bar{\mu}),\bar{\lambda}\ge0
(λˉ,μˉ),λˉ≥0,满足如下:
d ( λ ˉ , μ ˉ ) = f ( x ˉ ) \begin{equation} d(\bar{\lambda},\bar{\mu})=f(\bar{x}) \end{equation} d(λˉ,μˉ)=f(xˉ) - 那么可得,且这个点同时为原问题和对偶问题的最优解。
v ( D ) = v ( P ) \begin{equation} v(D)= v(P) \end{equation} v(D)=v(P) - 解释:因为满足弱对偶定理和前后相等可得:
d ( λ ˉ , μ ˉ ) ≤ v ( D ) ≤ v ( P ) ≤ f ( x ˉ ) , d ( λ ˉ , μ ˉ ) = f ( x ˉ ) → v ( D ) = v ( P ) \begin{equation} d(\bar{\lambda},\bar{\mu})\le v(D)\le v(P)\le f(\bar{x}),d(\bar{\lambda},\bar{\mu})=f(\bar{x})\to v(D)=v(P) \end{equation} d(λˉ,μˉ)≤v(D)≤v(P)≤f(xˉ),d(λˉ,μˉ)=f(xˉ)→v(D)=v(P)
1.2 推论2
- 如果 v ( P ) = − ∞ v(P)=-\infty v(P)=−∞,则可得 d ( λ , μ ) = − ∞ , ∀ ( λ , μ ) , λ ≥ 0 d(\lambda,\mu)=-\infty,\forall \;(\lambda,\mu),\lambda\ge0 d(λ,μ)=−∞,∀(λ,μ),λ≥0
- 如果 v ( D ) = + ∞ v(D)=+\infty v(D)=+∞,则可得 v ( P ) = + ∞ v(P)=+\infty v(P)=+∞,原问题P无可行解
2. duality gap
2.1 定义
我们定义duality-gap 表示原问题的最优值减去对偶问题的最优值如下:
d
u
a
l
i
t
y
g
a
p
=
v
(
P
)
−
v
(
D
)
\begin{equation} duality\;gap=v(P)-v(D) \end{equation}
dualitygap=v(P)−v(D)
2.2 约束问题
假设我们有如下约束优化问题:
-
原问题:
( P ) min { x 1 2 + x 2 2 } s t . − x 1 − x 2 ≤ − 1 2 , x ∈ Z + 2 \begin{equation} \begin{aligned} &(P)\; \;\min\; \{x_1^2+x_2^2\}\\ &st.\;\;-x_1-x_2\le -\frac{1}{2},x\in Z_+^2\\ \end{aligned} \end{equation} (P)min{x12+x22}st.−x1−x2≤−21,x∈Z+2 -
根据图形可得,当 x 1 = 0 , x 2 = 1 x_1=0,x_2=1 x1=0,x2=1时可以去的最小值,则 v ( P ) = 1 v(P)=1 v(P)=1
-
拉格朗日函数如下:
d ( x , λ ) = x 1 2 + x 2 2 + λ ( 1 2 − x 1 − x 2 ) \begin{equation} d(x,\lambda)=x_1^2+x_2^2+\lambda(\frac{1}{2}-x_1-x_2) \end{equation} d(x,λ)=x12+x22+λ(21−x1−x2) -
对偶问题如下:
max λ min ( x 1 , x 2 ) { d ( x , λ ) } = max λ min ( x 1 , x 2 ) { x 1 2 + x 2 2 + λ ( 1 2 − x 1 − x 2 ) } \begin{equation} \max\limits_{\lambda}\min \limits_{(x_1,x_2)}\{d(x,\lambda)\}=\max\limits_{\lambda}\min \limits_{(x_1,x_2)}\{x_1^2+x_2^2+\lambda(\frac{1}{2}-x_1-x_2)\} \end{equation} λmax(x1,x2)min{d(x,λ)}=λmax(x1,x2)min{x12+x22+λ(21−x1−x2)} -
化简如下:
max λ min ( x 1 , x 2 ) { d ( x , λ ) } = max λ min ( x 1 , x 2 ) { ( x 1 − λ 2 ) 2 + ( x 2 − λ 2 ) 2 + λ 2 − λ 2 2 } \begin{equation} \max\limits_{\lambda}\min \limits_{(x_1,x_2)}\{d(x,\lambda)\}=\max\limits_{\lambda}\min \limits_{(x_1,x_2)}\{(x_1-\frac{\lambda}{2})^2+(x_2-\frac{\lambda}{2})^2+\frac{\lambda}{2}-\frac{\lambda^2}{2}\} \end{equation} λmax(x1,x2)min{d(x,λ)}=λmax(x1,x2)min{(x1−2λ)2+(x2−2λ)2+2λ−2λ2} -
也就是说,当 λ \lambda λ确定时,内部的最小值指的是坐标点 P ( x 1 , x 2 ) P(x_1,x_2) P(x1,x2)与 Q ( λ 2 , λ 2 ) Q(\frac{\lambda}{2},\frac{\lambda}{2}) Q(2λ,2λ)的最短距离,那我们就分类讨论 λ 2 \frac{\lambda}{2} 2λ在坐标轴哪?
-
当 1 2 < λ 2 < 3 2 \frac{1}{2}<\frac{\lambda}{2}<\frac{3}{2} 21<2λ<23时,最短的点为 P = ( 1 , 1 ) P=(1,1) P=(1,1)
min ( x 1 , x 2 ) { d ( x , λ ) } = min ( x 1 , x 2 ) { x 1 2 + x 2 2 + λ ( 1 2 − x 1 − x 2 ) } = 2 − 3 2 λ \begin{equation} \min \limits_{(x_1,x_2)}\{d(x,\lambda)\}=\min \limits_{(x_1,x_2)}\{x_1^2+x_2^2+\lambda(\frac{1}{2}-x_1-x_2)\}=2-\frac{3}{2}\lambda \end{equation} (x1,x2)min{d(x,λ)}=(x1,x2)min{x12+x22+λ(21−x1−x2)}=2−23λ -
当 3 2 < λ 2 < 5 2 \frac{3}{2}<\frac{\lambda}{2}<\frac{5}{2} 23<2λ<25时,最短的点为 P = ( 2 , 2 ) P=(2,2) P=(2,2)
min ( x 1 , x 2 ) { d ( x , λ ) } = min ( x 1 , x 2 ) { x 1 2 + x 2 2 + λ ( 1 2 − x 1 − x 2 ) } = 8 − 7 2 λ \begin{equation} \min \limits_{(x_1,x_2)}\{d(x,\lambda)\}=\min \limits_{(x_1,x_2)}\{x_1^2+x_2^2+\lambda(\frac{1}{2}-x_1-x_2)\}=8-\frac{7}{2}\lambda \end{equation} (x1,x2)min{d(x,λ)}=(x1,x2)min{x12+x22+λ(21−x1−x2)}=8−27λ -
当 k − 1 2 < λ 2 < k + 1 2 k-\frac{1}{2}<\frac{\lambda}{2}<k+\frac{1}{2} k−21<2λ<k+21时,最短的点为 P = ( k , k ) P=(k,k) P=(k,k)
min ( x 1 = k , x 2 = k ) { d ( x , λ ) } = min ( x 1 = k , x 2 = k ) { 2 k 2 + λ ( 1 2 − 2 k ) } , k = 1 , 2 , ⋯ , n \begin{equation} \min \limits_{(x_1=k,x_2=k)}\{d(x,\lambda)\}=\min \limits_{(x_1=k,x_2=k)}\{2k^2+\lambda(\frac{1}{2}-2k)\},k=1,2,\cdots,n \end{equation} (x1=k,x2=k)min{d(x,λ)}=(x1=k,x2=k)min{2k2+λ(21−2k)},k=1,2,⋯,n -
将 k = 1 , 2 , ⋯ , n k=1,2,\cdots,n k=1,2,⋯,n代入可得,根据 k − 1 2 < λ 2 < k + 1 2 k-\frac{1}{2}<\frac{\lambda}{2}<k+\frac{1}{2} k−21<2λ<k+21
max λ min ( x 1 , x 2 ) { d ( x , λ ) } = 1 2 \begin{equation} \max\limits_{\lambda}\min \limits_{(x_1,x_2)}\{d(x,\lambda)\}=\frac{1}{2} \end{equation} λmax(x1,x2)min{d(x,λ)}=21
-
综上所示, v ( D ) = 1 2 , v ( P ) = 1 v(D)=\frac{1}{2},v(P)=1 v(D)=21,v(P)=1,可得:
d u a l i t y g a p = v ( P ) − v ( D ) = 1 − 1 2 = 1 2 \begin{equation} duality\;gap=v(P)-v(D)=1-\frac{1}{2}=\frac{1}{2} \end{equation} dualitygap=v(P)−v(D)=1−21=21
3. 强对偶定理
3.1 概述
- 假设:
1) 集合X为非空凸集, f ( x ) f(x) f(x)及 g i ( x ) , i = 1 , 2 , ⋯ , m g_i(x),i=1,2,\cdots,m gi(x),i=1,2,⋯,m是凸函数, h i ( x ) , i = 1 , 2 , ⋯ , l h_i(x),i=1,2,\cdots,l hi(x),i=1,2,⋯,l均为线性函数。
2) 假设存在 x ^ ∈ X \hat{x}\in X x^∈X使得 g i ( x ^ ) < 0 , i = 1 , ⋯ , m , h i ( x ^ ) = 0 , i = 1 , ⋯ , l g_i(\hat{x})<0,i=1,\cdots,m,h_i(\hat{x})=0,i=1,\cdots,l gi(x^)<0,i=1,⋯,m,hi(x^)=0,i=1,⋯,l,且
0 ∈ i n t h ( X ) 0\in \mathrm{int}\; h(X) 0∈inth(X),其中 h ( X ) = { [ h 1 ( x ) , h 2 ( x ) , ⋯ , h l ( x ) ] T ∣ x ∈ X } h(X)=\{[h_1(x),h_2(x),\cdots,h_l(x)]^T\big|x\in X\} h(X)={[h1(x),h2(x),⋯,hl(x)]T x∈X},则强对偶成立,即:
min { f ( x ) ∣ x ∈ S } = max { d ( λ , μ ) ∣ λ ≥ 0 , μ } \begin{equation} \min \{f(x)|x\in S\}=\max \{d(\lambda,\mu)\big|\lambda \ge 0,\mu\} \end{equation} min{f(x)∣x∈S}=max{d(λ,μ) λ≥0,μ} - 假设1保证了G是一个凸函数集
- 假设2保证了图集G在
-y
处有阴影 - 基于如下讨论最优化理论与方法-第十讲-约束优化,可得原问题P的最小值和对偶问题的最大值一致
3.2 证明:
-
由于 x ^ \hat{x} x^的存在,则原问题 ( P ) (P) (P)有可行解
-
若 v ( P ) = − ∞ v(P)=-\infty v(P)=−∞,根据弱对偶定理推论可得: d ( λ , μ ) = − ∞ , ∀ ( λ , μ ) , λ ≥ 0 d(\lambda,\mu)=-\infty,\forall\;(\lambda,\mu),\lambda \ge0 d(λ,μ)=−∞,∀(λ,μ),λ≥0
-
若 v ( P ) = v v(P)=v v(P)=v,根据弱对偶定理推论可得:不存在 x ∈ X x\in X x∈X,使得 f ( x ) < v , g i ( x ) ≤ 0 , i = 1 , ⋯ , m , h i ( x ) = 0 , i = 1 , ⋯ , l f(x)<v,g_i(x)\le0,i=1,\cdots,m,h_i(x)=0,i=1,\cdots,l f(x)<v,gi(x)≤0,i=1,⋯,m,hi(x)=0,i=1,⋯,l
-
定义H函数如下:
H = { ( p q r ) ∈ R 1 + m + l ∣ f ( x ) − v < p , g i ( x ) ≤ q i , i = 1 , ⋯ , m ; h i ( x ) = r i , i = 1 ⋯ , l , x ∈ X } \begin{equation} H=\{\begin{pmatrix}p\\\\q\\\\r\end{pmatrix}\in \mathbb{R}^{1+m+l}\big|f(x)-v<p,g_i(x)\le q_i,i=1,\cdots,m;h_i(x)=r_i,i=1\cdots,l,x\in X\} \end{equation} H={ pqr ∈R1+m+l f(x)−v<p,gi(x)≤qi,i=1,⋯,m;hi(x)=ri,i=1⋯,l,x∈X} -
可知:H是凸函数,且 ( 0 0 0 ) ∉ H \begin{pmatrix}0\\\\0\\\\0\end{pmatrix}\notin H 000 ∈/H,根据凸集分离定理,则
存在
( λ 0 λ μ ) ≠ 0 \begin{pmatrix}\lambda_0\\\\\lambda\\\\\mu\end{pmatrix}\neq 0 λ0λμ =0,使得:
( λ 0 λ μ ) T ( p q r ) ≥ 0 , ∀ ( p q r ) ∈ d ( H ) \begin{equation}\begin{pmatrix}\lambda_0\\\\\lambda\\\\\mu\end{pmatrix}^T\begin{pmatrix}p\\\\q\\\\r\end{pmatrix}\ge0,\forall \begin{pmatrix}p\\\\q\\\\r\end{pmatrix}\in \mathrm{d}(H)\end{equation} λ0λμ T pqr ≥0,∀ pqr ∈d(H)
-
整理可得: λ 0 , q \lambda_0,q λ0,q为实数,不是向量,不需要转置
λ 0 p + λ T q + μ T r ≥ 0 → λ 0 ≥ 0 , λ i ≥ 0 , i = 1 , ⋯ , m \begin{equation} \lambda_0p+\lambda^Tq+\mu^Tr\ge0\to \lambda_0\ge0,\lambda_i\ge0,i=1,\cdots,m \end{equation} λ0p+λTq+μTr≥0→λ0≥0,λi≥0,i=1,⋯,m -
由图可得对于任意的 x ∈ X x\in X x∈X来说,都在超平面上方,所以可得:
∀ x ∈ X , λ 0 ≥ 0 , λ 0 [ f ( x ) − v ] + ∑ i = 1 m λ i g i ( x ) + ∑ i = 1 l μ i h i ( x ) ≥ 0 \begin{equation} \forall x\in X,\lambda_0\ge 0,\lambda_0[f(x)-v]+\sum_{i=1}^m \lambda_ig_i(x)+\sum_{i=1}^l \mu_ih_i(x)\ge0 \end{equation} ∀x∈X,λ0≥0,λ0[f(x)−v]+i=1∑mλigi(x)+i=1∑lμihi(x)≥0
3.3 证明 λ 0 ≠ 0 \lambda_0\neq0 λ0=0
- 我们可以设
λ
0
=
0
,
x
=
x
^
\lambda_0=0,x=\hat{x}
λ0=0,x=x^ 代入可得:
∑ i = 1 m λ i g i ( x ^ ) + ∑ i = 1 l μ i h i ( x ^ ) ≥ 0 ; g i ( x ^ ) ≤ 0 , h i ( x ^ ) = 0 \begin{equation} \sum_{i=1}^m \lambda_ig_i(\hat{x})+\sum_{i=1}^l \mu_ih_i(\hat{x})\ge0;g_i(\hat{x})\le 0,h_i(\hat{x})=0 \end{equation} i=1∑mλigi(x^)+i=1∑lμihi(x^)≥0;gi(x^)≤0,hi(x^)=0 - 只要有一个
λ
i
>
0
\lambda_i>0
λi>0,那么必然有
∑
i
=
1
m
λ
i
g
i
(
x
^
)
<
0
\sum_{i=1}^m \lambda_ig_i(\hat{x})<0
∑i=1mλigi(x^)<0,矛盾,所以只能都等于0
λ i = 0 \begin{equation} \lambda_i=0 \end{equation} λi=0 - 代入到通项可得:
∀ x ∈ X , ∑ i = 1 l μ i h i ( x ) ≥ 0 \begin{equation} \forall x\in X,\sum_{i=1}^l \mu_ih_i(x)\ge0 \end{equation} ∀x∈X,i=1∑lμihi(x)≥0 - 由于已知
0
∈
i
n
t
h
(
X
)
0\in \mathrm{int}\; h(X)
0∈inth(X),其中
h
(
X
)
=
{
[
h
1
(
x
)
,
h
2
(
x
)
,
⋯
,
h
l
(
x
)
]
T
∣
x
∈
X
}
h(X)=\{[h_1(x),h_2(x),\cdots,h_l(x)]^T\big|x\in X\}
h(X)={[h1(x),h2(x),⋯,hl(x)]T
x∈X},则存在一个
x
~
,
ϵ
→
0
\tilde{x},\epsilon\to 0
x~,ϵ→0,使得:
( h 1 ( x ~ ) ⋮ h l ( x ~ ) ) = ϵ ( − μ 1 ⋮ − μ l ) \begin{equation} \begin{pmatrix} h_1(\tilde{x})\\\\ \vdots\\\\ h_l(\tilde{x}) \end{pmatrix}=\epsilon \begin{pmatrix} -\mu_1\\\\ \vdots\\\\ -\mu_l \end{pmatrix} \end{equation} h1(x~)⋮hl(x~) =ϵ −μ1⋮−μl - 代入可得:
∀ x ∈ X , ϵ > 0 , − ϵ ∑ i = 1 l μ i 2 ≥ 0 → μ i = 0 \begin{equation} \forall x\in X,\epsilon>0,-\epsilon\sum_{i=1}^l \mu_i^2\ge0\to \mu_i=0 \end{equation} ∀x∈X,ϵ>0,−ϵi=1∑lμi2≥0→μi=0 - 综上所述可得:
λ 0 = 0 , λ i = 0 , μ i = 0 与题目 ( 0 0 0 ) ∉ H , 矛盾,所以 λ 0 = 0 是错误的结论 \begin{equation} \lambda_0=0,\lambda_i=0,\mu_i=0与题目\begin{pmatrix}0\\\\0\\\\0\end{pmatrix}\notin H,矛盾,所以\lambda_0=0是错误的结论 \end{equation} λ0=0,λi=0,μi=0与题目 000 ∈/H,矛盾,所以λ0=0是错误的结论 - 可得:
λ 0 > 0 \begin{equation} \lambda_0>0 \end{equation} λ0>0 - 我们可以整理公式20可得:
[ f ( x ) − v ] + ∑ i = 1 m λ i λ 0 g i ( x ) + ∑ i = 1 l μ i λ 0 h i ( x ) ≥ 0 ; ∀ x ∈ X \begin{equation} [f(x)-v]+\sum_{i=1}^m \frac{\lambda_i}{\lambda_0}g_i(x)+\sum_{i=1}^l \frac{\mu_i}{\lambda_0}h_i(x)\ge0;\forall x\in X \end{equation} [f(x)−v]+i=1∑mλ0λigi(x)+i=1∑lλ0μihi(x)≥0;∀x∈X - 为了方便后续,我们定义
λ
i
λ
0
=
λ
i
ˉ
≥
0
,
μ
i
λ
0
=
μ
i
ˉ
\frac{\lambda_i}{\lambda_0}=\bar{\lambda_i}\ge0,\frac{\mu_i}{\lambda_0}=\bar{\mu_i}
λ0λi=λiˉ≥0,λ0μi=μiˉ
[ f ( x ) − v ] + ∑ i = 1 m λ i ˉ g i ( x ) + ∑ i = 1 l μ i ˉ h i ( x ) ≥ 0 ; ∀ x ∈ X \begin{equation} [f(x)-v]+\sum_{i=1}^m \bar{\lambda_i}g_i(x)+\sum_{i=1}^l \bar{\mu_i}h_i(x)\ge0;\forall x\in X \end{equation} [f(x)−v]+i=1∑mλiˉgi(x)+i=1∑lμiˉhi(x)≥0;∀x∈X - 移项可得:
f ( x ) + ∑ i = 1 m λ i ˉ g i ( x ) + ∑ i = 1 l μ i ˉ h i ( x ) ≥ v ; ∀ x ∈ X \begin{equation} f(x)+\sum_{i=1}^m \bar{\lambda_i}g_i(x)+\sum_{i=1}^l \bar{\mu_i}h_i(x)\;\ge \;v;\forall x\in X \end{equation} f(x)+i=1∑mλiˉgi(x)+i=1∑lμiˉhi(x)≥v;∀x∈X - 左边其实就是对偶问题,其中参数为
λ
ˉ
,
μ
ˉ
\bar{\lambda},\bar{\mu}
λˉ,μˉ
d ( λ ˉ , μ ˉ ) ≥ v = v ( P ) ; ∀ x ∈ X \begin{equation} \mathbb{d}(\bar{\lambda},\bar{\mu})\ge \;v=v(P);\forall x\in X \end{equation} d(λˉ,μˉ)≥v=v(P);∀x∈X - 因为根据弱对偶定理可得:
d ( λ , μ ) ≤ v = v ( P ) ; ∀ x ∈ X \begin{equation} \mathbb{d}(\lambda,\mu)\le \;v=v(P);\forall x\in X \end{equation} d(λ,μ)≤v=v(P);∀x∈X - 综上所述可得:
d ( λ ˉ , μ ˉ ) = v ( P ) ; 强对偶成立 \begin{equation} \mathbb{d}(\bar{\lambda},\bar{\mu})=v(P);强对偶成立 \end{equation} d(λˉ,μˉ)=v(P);强对偶成立