最优化理论与方法-第十讲-弱对偶定理,强对偶定理

1. 弱对偶定理

  • 概述:具体详见此节: 最优化理论与方法-第十讲-约束优化
    v ( P ) v(P) v(P)是原问题 ( P ) (P) (P)的最优值, v ( D ) v(D) v(D)是对偶问题 ( D ) (D) (D)的最优值,则
    v ( D ) ≤ v ( P ) \begin{equation} v(D)\le v(P) \end{equation} v(D)v(P)
  • 我们知道对于 f ( x ) f(x) f(x)来说,其最小值为 v ( P ) v(P) v(P),可得: v ( P ) ≤ f ( x ) v(P)\le f(x) v(P)f(x),因为对于对偶问题 d ( λ , μ ) d(\lambda,\mu) d(λ,μ)来说,其最大值为 v ( D ) v(D) v(D),所以可得: d ( λ , μ ) ≤ v ( D ) d(\lambda,\mu)\le v(D) d(λ,μ)v(D)
  • 整理可得恒等式:
    d ( λ , μ ) ≤ v ( D ) ≤ v ( P ) ≤ f ( x ) \begin{equation} d(\lambda,\mu)\le v(D)\le v(P)\le f(x) \end{equation} d(λ,μ)v(D)v(P)f(x)

1.1 推论1

  • 假设在原问题的定义域内存在一个 x ˉ ∈ S \bar{x}\in S xˉS,在对偶问题中的定义域内存在一对参数 ( λ ˉ , μ ˉ ) , λ ˉ ≥ 0 (\bar{\lambda},\bar{\mu}),\bar{\lambda}\ge0 (λˉ,μˉ),λˉ0,满足如下:
    d ( λ ˉ , μ ˉ ) = f ( x ˉ ) \begin{equation} d(\bar{\lambda},\bar{\mu})=f(\bar{x}) \end{equation} d(λˉ,μˉ)=f(xˉ)
  • 那么可得,且这个点同时为原问题和对偶问题的最优解。
    v ( D ) = v ( P ) \begin{equation} v(D)= v(P) \end{equation} v(D)=v(P)
  • 解释:因为满足弱对偶定理和前后相等可得:
    d ( λ ˉ , μ ˉ ) ≤ v ( D ) ≤ v ( P ) ≤ f ( x ˉ ) , d ( λ ˉ , μ ˉ ) = f ( x ˉ ) → v ( D ) = v ( P ) \begin{equation} d(\bar{\lambda},\bar{\mu})\le v(D)\le v(P)\le f(\bar{x}),d(\bar{\lambda},\bar{\mu})=f(\bar{x})\to v(D)=v(P) \end{equation} d(λˉ,μˉ)v(D)v(P)f(xˉ),d(λˉ,μˉ)=f(xˉ)v(D)=v(P)

1.2 推论2

  • 如果 v ( P ) = − ∞ v(P)=-\infty v(P)=,则可得 d ( λ , μ ) = − ∞ , ∀    ( λ , μ ) , λ ≥ 0 d(\lambda,\mu)=-\infty,\forall \;(\lambda,\mu),\lambda\ge0 d(λ,μ)=,(λ,μ),λ0
  • 如果 v ( D ) = + ∞ v(D)=+\infty v(D)=+,则可得 v ( P ) = + ∞ v(P)=+\infty v(P)=+,原问题P无可行解

2. duality gap

2.1 定义

我们定义duality-gap 表示原问题的最优值减去对偶问题的最优值如下:
d u a l i t y    g a p = v ( P ) − v ( D ) \begin{equation} duality\;gap=v(P)-v(D) \end{equation} dualitygap=v(P)v(D)

2.2 约束问题

假设我们有如下约束优化问题:

  • 原问题:
    ( P )      min ⁡    { x 1 2 + x 2 2 } s t .      − x 1 − x 2 ≤ − 1 2 , x ∈ Z + 2 \begin{equation} \begin{aligned} &(P)\; \;\min\; \{x_1^2+x_2^2\}\\ &st.\;\;-x_1-x_2\le -\frac{1}{2},x\in Z_+^2\\ \end{aligned} \end{equation} (P)min{x12+x22}st.x1x221,xZ+2

  • 根据图形可得,当 x 1 = 0 , x 2 = 1 x_1=0,x_2=1 x1=0,x2=1时可以去的最小值,则 v ( P ) = 1 v(P)=1 v(P)=1

  • 拉格朗日函数如下:
    d ( x , λ ) = x 1 2 + x 2 2 + λ ( 1 2 − x 1 − x 2 ) \begin{equation} d(x,\lambda)=x_1^2+x_2^2+\lambda(\frac{1}{2}-x_1-x_2) \end{equation} d(x,λ)=x12+x22+λ(21x1x2)

  • 对偶问题如下:
    max ⁡ λ min ⁡ ( x 1 , x 2 ) { d ( x , λ ) } = max ⁡ λ min ⁡ ( x 1 , x 2 ) { x 1 2 + x 2 2 + λ ( 1 2 − x 1 − x 2 ) } \begin{equation} \max\limits_{\lambda}\min \limits_{(x_1,x_2)}\{d(x,\lambda)\}=\max\limits_{\lambda}\min \limits_{(x_1,x_2)}\{x_1^2+x_2^2+\lambda(\frac{1}{2}-x_1-x_2)\} \end{equation} λmax(x1,x2)min{d(x,λ)}=λmax(x1,x2)min{x12+x22+λ(21x1x2)}

  • 化简如下:
    max ⁡ λ min ⁡ ( x 1 , x 2 ) { d ( x , λ ) } = max ⁡ λ min ⁡ ( x 1 , x 2 ) { ( x 1 − λ 2 ) 2 + ( x 2 − λ 2 ) 2 + λ 2 − λ 2 2 } \begin{equation} \max\limits_{\lambda}\min \limits_{(x_1,x_2)}\{d(x,\lambda)\}=\max\limits_{\lambda}\min \limits_{(x_1,x_2)}\{(x_1-\frac{\lambda}{2})^2+(x_2-\frac{\lambda}{2})^2+\frac{\lambda}{2}-\frac{\lambda^2}{2}\} \end{equation} λmax(x1,x2)min{d(x,λ)}=λmax(x1,x2)min{(x12λ)2+(x22λ)2+2λ2λ2}

  • 也就是说,当 λ \lambda λ确定时,内部的最小值指的是坐标点 P ( x 1 , x 2 ) P(x_1,x_2) P(x1,x2) Q ( λ 2 , λ 2 ) Q(\frac{\lambda}{2},\frac{\lambda}{2}) Q(2λ,2λ)的最短距离,那我们就分类讨论 λ 2 \frac{\lambda}{2} 2λ在坐标轴哪?

  • 1 2 < λ 2 < 3 2 \frac{1}{2}<\frac{\lambda}{2}<\frac{3}{2} 21<2λ<23时,最短的点为 P = ( 1 , 1 ) P=(1,1) P=(1,1)
    min ⁡ ( x 1 , x 2 ) { d ( x , λ ) } = min ⁡ ( x 1 , x 2 ) { x 1 2 + x 2 2 + λ ( 1 2 − x 1 − x 2 ) } = 2 − 3 2 λ \begin{equation} \min \limits_{(x_1,x_2)}\{d(x,\lambda)\}=\min \limits_{(x_1,x_2)}\{x_1^2+x_2^2+\lambda(\frac{1}{2}-x_1-x_2)\}=2-\frac{3}{2}\lambda \end{equation} (x1,x2)min{d(x,λ)}=(x1,x2)min{x12+x22+λ(21x1x2)}=223λ

  • 3 2 < λ 2 < 5 2 \frac{3}{2}<\frac{\lambda}{2}<\frac{5}{2} 23<2λ<25时,最短的点为 P = ( 2 , 2 ) P=(2,2) P=(2,2)
    min ⁡ ( x 1 , x 2 ) { d ( x , λ ) } = min ⁡ ( x 1 , x 2 ) { x 1 2 + x 2 2 + λ ( 1 2 − x 1 − x 2 ) } = 8 − 7 2 λ \begin{equation} \min \limits_{(x_1,x_2)}\{d(x,\lambda)\}=\min \limits_{(x_1,x_2)}\{x_1^2+x_2^2+\lambda(\frac{1}{2}-x_1-x_2)\}=8-\frac{7}{2}\lambda \end{equation} (x1,x2)min{d(x,λ)}=(x1,x2)min{x12+x22+λ(21x1x2)}=827λ

  • k − 1 2 < λ 2 < k + 1 2 k-\frac{1}{2}<\frac{\lambda}{2}<k+\frac{1}{2} k21<2λ<k+21时,最短的点为 P = ( k , k ) P=(k,k) P=(k,k)
    min ⁡ ( x 1 = k , x 2 = k ) { d ( x , λ ) } = min ⁡ ( x 1 = k , x 2 = k ) { 2 k 2 + λ ( 1 2 − 2 k ) } , k = 1 , 2 , ⋯   , n \begin{equation} \min \limits_{(x_1=k,x_2=k)}\{d(x,\lambda)\}=\min \limits_{(x_1=k,x_2=k)}\{2k^2+\lambda(\frac{1}{2}-2k)\},k=1,2,\cdots,n \end{equation} (x1=k,x2=k)min{d(x,λ)}=(x1=k,x2=k)min{2k2+λ(212k)},k=1,2,,n

  • k = 1 , 2 , ⋯   , n k=1,2,\cdots,n k=1,2,,n代入可得,根据 k − 1 2 < λ 2 < k + 1 2 k-\frac{1}{2}<\frac{\lambda}{2}<k+\frac{1}{2} k21<2λ<k+21
    max ⁡ λ min ⁡ ( x 1 , x 2 ) { d ( x , λ ) } = 1 2 \begin{equation} \max\limits_{\lambda}\min \limits_{(x_1,x_2)}\{d(x,\lambda)\}=\frac{1}{2} \end{equation} λmax(x1,x2)min{d(x,λ)}=21
    在这里插入图片描述

  • 综上所示, v ( D ) = 1 2 , v ( P ) = 1 v(D)=\frac{1}{2},v(P)=1 v(D)=21,v(P)=1,可得:
    d u a l i t y    g a p = v ( P ) − v ( D ) = 1 − 1 2 = 1 2 \begin{equation} duality\;gap=v(P)-v(D)=1-\frac{1}{2}=\frac{1}{2} \end{equation} dualitygap=v(P)v(D)=121=21

3. 强对偶定理

3.1 概述

  • 假设:
    1) 集合X为非空凸集, f ( x ) f(x) f(x) g i ( x ) , i = 1 , 2 , ⋯   , m g_i(x),i=1,2,\cdots,m gi(x),i=1,2,,m是凸函数, h i ( x ) , i = 1 , 2 , ⋯   , l h_i(x),i=1,2,\cdots,l hi(x),i=1,2,,l均为线性函数。
    2) 假设存在 x ^ ∈ X \hat{x}\in X x^X使得 g i ( x ^ ) < 0 , i = 1 , ⋯   , m , h i ( x ^ ) = 0 , i = 1 , ⋯   , l g_i(\hat{x})<0,i=1,\cdots,m,h_i(\hat{x})=0,i=1,\cdots,l gi(x^)<0,i=1,,m,hi(x^)=0,i=1,,l,且
    0 ∈ i n t    h ( X ) 0\in \mathrm{int}\; h(X) 0inth(X),其中 h ( X ) = { [ h 1 ( x ) , h 2 ( x ) , ⋯   , h l ( x ) ] T ∣ x ∈ X } h(X)=\{[h_1(x),h_2(x),\cdots,h_l(x)]^T\big|x\in X\} h(X)={[h1(x),h2(x),,hl(x)]T xX},则强对偶成立,即:
    min ⁡ { f ( x ) ∣ x ∈ S } = max ⁡ { d ( λ , μ ) ∣ λ ≥ 0 , μ } \begin{equation} \min \{f(x)|x\in S\}=\max \{d(\lambda,\mu)\big|\lambda \ge 0,\mu\} \end{equation} min{f(x)xS}=max{d(λ,μ) λ0,μ}
  • 假设1保证了G是一个凸函数集
  • 假设2保证了图集G在-y处有阴影
  • 基于如下讨论最优化理论与方法-第十讲-约束优化,可得原问题P的最小值和对偶问题的最大值一致
    在这里插入图片描述

3.2 证明:

  • 由于 x ^ \hat{x} x^的存在,则原问题 ( P ) (P) (P)有可行解

  • v ( P ) = − ∞ v(P)=-\infty v(P)=,根据弱对偶定理推论可得: d ( λ , μ ) = − ∞ , ∀    ( λ , μ ) , λ ≥ 0 d(\lambda,\mu)=-\infty,\forall\;(\lambda,\mu),\lambda \ge0 d(λ,μ)=,(λ,μ),λ0

  • v ( P ) = v v(P)=v v(P)=v,根据弱对偶定理推论可得:不存在 x ∈ X x\in X xX,使得 f ( x ) < v , g i ( x ) ≤ 0 , i = 1 , ⋯   , m , h i ( x ) = 0 , i = 1 , ⋯   , l f(x)<v,g_i(x)\le0,i=1,\cdots,m,h_i(x)=0,i=1,\cdots,l f(x)<v,gi(x)0,i=1,,m,hi(x)=0,i=1,,l

  • 定义H函数如下:
    H = { ( p q r ) ∈ R 1 + m + l ∣ f ( x ) − v < p , g i ( x ) ≤ q i , i = 1 , ⋯   , m ; h i ( x ) = r i , i = 1 ⋯   , l , x ∈ X } \begin{equation} H=\{\begin{pmatrix}p\\\\q\\\\r\end{pmatrix}\in \mathbb{R}^{1+m+l}\big|f(x)-v<p,g_i(x)\le q_i,i=1,\cdots,m;h_i(x)=r_i,i=1\cdots,l,x\in X\} \end{equation} H={ pqr R1+m+l f(x)v<p,gi(x)qi,i=1,,m;hi(x)=ri,i=1,l,xX}

  • 可知:H是凸函数,且 ( 0 0 0 ) ∉ H \begin{pmatrix}0\\\\0\\\\0\end{pmatrix}\notin H 000 /H,根据凸集分离定理,则存在 ( λ 0 λ μ ) ≠ 0 \begin{pmatrix}\lambda_0\\\\\lambda\\\\\mu\end{pmatrix}\neq 0 λ0λμ =0,使得:
    ( λ 0 λ μ ) T ( p q r ) ≥ 0 , ∀ ( p q r ) ∈ d ( H ) \begin{equation}\begin{pmatrix}\lambda_0\\\\\lambda\\\\\mu\end{pmatrix}^T\begin{pmatrix}p\\\\q\\\\r\end{pmatrix}\ge0,\forall \begin{pmatrix}p\\\\q\\\\r\end{pmatrix}\in \mathrm{d}(H)\end{equation} λ0λμ T pqr 0, pqr d(H)
    在这里插入图片描述

  • 整理可得: λ 0 , q \lambda_0,q λ0,q为实数,不是向量,不需要转置
    λ 0 p + λ T q + μ T r ≥ 0 → λ 0 ≥ 0 , λ i ≥ 0 , i = 1 , ⋯   , m \begin{equation} \lambda_0p+\lambda^Tq+\mu^Tr\ge0\to \lambda_0\ge0,\lambda_i\ge0,i=1,\cdots,m \end{equation} λ0p+λTq+μTr0λ00,λi0,i=1,,m

  • 由图可得对于任意的 x ∈ X x\in X xX来说,都在超平面上方,所以可得:
    ∀ x ∈ X , λ 0 ≥ 0 , λ 0 [ f ( x ) − v ] + ∑ i = 1 m λ i g i ( x ) + ∑ i = 1 l μ i h i ( x ) ≥ 0 \begin{equation} \forall x\in X,\lambda_0\ge 0,\lambda_0[f(x)-v]+\sum_{i=1}^m \lambda_ig_i(x)+\sum_{i=1}^l \mu_ih_i(x)\ge0 \end{equation} xX,λ00,λ0[f(x)v]+i=1mλigi(x)+i=1lμihi(x)0

3.3 证明 λ 0 ≠ 0 \lambda_0\neq0 λ0=0

  • 我们可以设 λ 0 = 0 , x = x ^ \lambda_0=0,x=\hat{x} λ0=0,x=x^ 代入可得:
    ∑ i = 1 m λ i g i ( x ^ ) + ∑ i = 1 l μ i h i ( x ^ ) ≥ 0 ; g i ( x ^ ) ≤ 0 , h i ( x ^ ) = 0 \begin{equation} \sum_{i=1}^m \lambda_ig_i(\hat{x})+\sum_{i=1}^l \mu_ih_i(\hat{x})\ge0;g_i(\hat{x})\le 0,h_i(\hat{x})=0 \end{equation} i=1mλigi(x^)+i=1lμihi(x^)0;gi(x^)0,hi(x^)=0
  • 只要有一个 λ i > 0 \lambda_i>0 λi>0,那么必然有 ∑ i = 1 m λ i g i ( x ^ ) < 0 \sum_{i=1}^m \lambda_ig_i(\hat{x})<0 i=1mλigi(x^)<0,矛盾,所以只能都等于0
    λ i = 0 \begin{equation} \lambda_i=0 \end{equation} λi=0
  • 代入到通项可得:
    ∀ x ∈ X , ∑ i = 1 l μ i h i ( x ) ≥ 0 \begin{equation} \forall x\in X,\sum_{i=1}^l \mu_ih_i(x)\ge0 \end{equation} xX,i=1lμihi(x)0
  • 由于已知 0 ∈ i n t    h ( X ) 0\in \mathrm{int}\; h(X) 0inth(X),其中 h ( X ) = { [ h 1 ( x ) , h 2 ( x ) , ⋯   , h l ( x ) ] T ∣ x ∈ X } h(X)=\{[h_1(x),h_2(x),\cdots,h_l(x)]^T\big|x\in X\} h(X)={[h1(x),h2(x),,hl(x)]T xX},则存在一个 x ~ , ϵ → 0 \tilde{x},\epsilon\to 0 x~,ϵ0,使得:
    ( h 1 ( x ~ ) ⋮ h l ( x ~ ) ) = ϵ ( − μ 1 ⋮ − μ l ) \begin{equation} \begin{pmatrix} h_1(\tilde{x})\\\\ \vdots\\\\ h_l(\tilde{x}) \end{pmatrix}=\epsilon \begin{pmatrix} -\mu_1\\\\ \vdots\\\\ -\mu_l \end{pmatrix} \end{equation} h1(x~)hl(x~) =ϵ μ1μl
  • 代入可得:
    ∀ x ∈ X , ϵ > 0 , − ϵ ∑ i = 1 l μ i 2 ≥ 0 → μ i = 0 \begin{equation} \forall x\in X,\epsilon>0,-\epsilon\sum_{i=1}^l \mu_i^2\ge0\to \mu_i=0 \end{equation} xX,ϵ>0,ϵi=1lμi20μi=0
  • 综上所述可得:
    λ 0 = 0 , λ i = 0 , μ i = 0 与题目 ( 0 0 0 ) ∉ H , 矛盾,所以 λ 0 = 0 是错误的结论 \begin{equation} \lambda_0=0,\lambda_i=0,\mu_i=0与题目\begin{pmatrix}0\\\\0\\\\0\end{pmatrix}\notin H,矛盾,所以\lambda_0=0是错误的结论 \end{equation} λ0=0,λi=0,μi=0与题目 000 /H,矛盾,所以λ0=0是错误的结论
  • 可得:
    λ 0 > 0 \begin{equation} \lambda_0>0 \end{equation} λ0>0
  • 我们可以整理公式20可得:
    [ f ( x ) − v ] + ∑ i = 1 m λ i λ 0 g i ( x ) + ∑ i = 1 l μ i λ 0 h i ( x ) ≥ 0 ; ∀ x ∈ X \begin{equation} [f(x)-v]+\sum_{i=1}^m \frac{\lambda_i}{\lambda_0}g_i(x)+\sum_{i=1}^l \frac{\mu_i}{\lambda_0}h_i(x)\ge0;\forall x\in X \end{equation} [f(x)v]+i=1mλ0λigi(x)+i=1lλ0μihi(x)0;xX
  • 为了方便后续,我们定义 λ i λ 0 = λ i ˉ ≥ 0 , μ i λ 0 = μ i ˉ \frac{\lambda_i}{\lambda_0}=\bar{\lambda_i}\ge0,\frac{\mu_i}{\lambda_0}=\bar{\mu_i} λ0λi=λiˉ0,λ0μi=μiˉ
    [ f ( x ) − v ] + ∑ i = 1 m λ i ˉ g i ( x ) + ∑ i = 1 l μ i ˉ h i ( x ) ≥ 0 ; ∀ x ∈ X \begin{equation} [f(x)-v]+\sum_{i=1}^m \bar{\lambda_i}g_i(x)+\sum_{i=1}^l \bar{\mu_i}h_i(x)\ge0;\forall x\in X \end{equation} [f(x)v]+i=1mλiˉgi(x)+i=1lμiˉhi(x)0;xX
  • 移项可得:
    f ( x ) + ∑ i = 1 m λ i ˉ g i ( x ) + ∑ i = 1 l μ i ˉ h i ( x )    ≥    v ; ∀ x ∈ X \begin{equation} f(x)+\sum_{i=1}^m \bar{\lambda_i}g_i(x)+\sum_{i=1}^l \bar{\mu_i}h_i(x)\;\ge \;v;\forall x\in X \end{equation} f(x)+i=1mλiˉgi(x)+i=1lμiˉhi(x)v;xX
  • 左边其实就是对偶问题,其中参数为 λ ˉ , μ ˉ \bar{\lambda},\bar{\mu} λˉ,μˉ
    d ( λ ˉ , μ ˉ ) ≥    v = v ( P ) ; ∀ x ∈ X \begin{equation} \mathbb{d}(\bar{\lambda},\bar{\mu})\ge \;v=v(P);\forall x\in X \end{equation} d(λˉ,μˉ)v=v(P);xX
  • 因为根据弱对偶定理可得:
    d ( λ , μ ) ≤    v = v ( P ) ; ∀ x ∈ X \begin{equation} \mathbb{d}(\lambda,\mu)\le \;v=v(P);\forall x\in X \end{equation} d(λ,μ)v=v(P);xX
  • 综上所述可得:
    d ( λ ˉ , μ ˉ ) = v ( P ) ; 强对偶成立 \begin{equation} \mathbb{d}(\bar{\lambda},\bar{\mu})=v(P);强对偶成立 \end{equation} d(λˉ,μˉ)=v(P);强对偶成立
  • 24
    点赞
  • 19
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值