优化问题的最优性条件与拉格朗日对偶

优化问题的最优性条件

无约束优化问题

  设 f ( x ) : Ω → R , Ω ∈ R n f(x):\Omega\rightarrow\mathbb{R},\Omega\in\mathbb{R}^n f(x):ΩR,ΩRn为连续可微函数,
min ⁡ x ∈ Ω f ( x ) ( 1 ) \min_{x\in \Omega} f(x)\quad\quad\quad(1) xΩminf(x)(1)
优化问题(1)存在局部极小值 x ∗ x^* x的充分必要条件为:

  • ∇ x f ( x ∗ ) = 0 \nabla_xf(x^*)=0 xf(x)=0
  • x ∗ x^* x处的Hessian矩阵半正定,即 v T ( ∇ 2 f ( x ∗ ) ) v ≥ 0 , ∀ v ∈ R n v^T(\nabla^2f(x^*))v\geq0,\forall v\in\mathbb{R}^n vT(2f(x))v0,vRn
    ∇ 2 f ( x ) = ( ∂ 2 f ( x ) ∂ x 1 2 . . . ∂ 2 f ( x ) ∂ x 1 ∂ x n . . . . . . . . . ∂ 2 f ( x ) ∂ x n ∂ x 1 . . . ∂ 2 f ( x ) ∂ x n 2 ) \nabla^2f(x)=\left(\begin{matrix} \frac{\partial^2f(x)}{\partial x_1^2}&...&\frac{\partial^2f(x)}{\partial x_1\partial x_n}\\ ...&...&...\\ \frac{\partial^2f(x)}{\partial x_n\partial x_1}&...&\frac{\partial^2f(x)}{\partial x_n^2} \end{matrix}\right) 2f(x)=x122f(x)...xnx12f(x).........x1xn2f(x)...xn22f(x)

约束优化问题

  最优化问题的一般数学表现形式:
{ min ⁡ x ∈ Ω f ( x ) s . t . g i ( x ) ≤ 0 , i = 1 , 2 , . . . , k h j ( x ) = 0 , j = 1 , 2 , . . . , l ( 2 ) \left\{\begin{matrix}\min_{x\in \Omega} f(x)\\ \begin{aligned} s.t. g_i(x)&\leq0,i=1,2,...,k\\ h_j(x)&=0,j=1,2,...,l \end{aligned} \end{matrix}\right.\quad\quad(2) minxΩf(x)s.t.gi(x)hj(x)0,i=1,2,...,k=0,j=1,2,...,l(2)
其中 f ( x ) f(x) f(x)为目标函数, g i ( x ) g_i(x) gi(x)为不等式约束, h j ( x ) h_j(x) hj(x)为等式约束。

  • 线性规划: f ( x ) f(x) f(x) g i ( x ) g_i(x) gi(x) h j ( x ) h_j(x) hj(x)均是线性函数。
  • 非线性规划: f ( x ) f(x) f(x) g i ( x ) g_i(x) gi(x) h j ( x ) h_j(x) hj(x)有一个是非线性函数。
  • 二次规划:目标函数为二次函数,约束函数全为线性函数。
  • 凸优化:目标函数和不等式约束为凸函数,等式约束为线性函数。

KKT条件

  定义拉格朗日函数:
L ( x , μ , λ ) = f ( x ) + μ T h ( x ) + λ T g ( x ) \mathcal{L}(x,\boldsymbol{\mu},\boldsymbol{\lambda})=f(x)+\boldsymbol{\mu}^T\boldsymbol{h}(x)+\boldsymbol{\lambda}^T\boldsymbol{g}(x) L(x,μ,λ)=f(x)+μTh(x)+λTg(x)
x ∗ x^* x为局部极小值 ⟺ \Longleftrightarrow 存在唯一的 μ ∗ \boldsymbol{\mu}^* μ λ ∗ \boldsymbol{\lambda}^* λ满足KKT条件

  • 一阶最优性条件: ∇ x L ( x ∗ , μ , λ ∗ ) = 0 \nabla_x\mathcal{L}(x^*,\boldsymbol{\mu},\boldsymbol{\lambda}^*)=\boldsymbol{0} xL(x,μ,λ)=0
  • 拉格朗日乘子: λ i ∗ ≥ 0 , μ i ∗ ≥ 0 ∀ i = 1 , . . . , k \lambda_i^*\geq0, \mu^*_i\geq0 \quad\forall i=1,...,k λi0,μi0i=1,...,k
  • 互补松弛条件: λ i ∗ g ( x ∗ ) = 0 ∀ i = 1 , . . . , k \lambda_i^*g(x^*)=0\quad\forall i=1,...,k λig(x)=0i=1,...,k
  • 不等式约束条件: g i ( x ∗ ) ≤ 0 f o r i = 1 , . . . , k g_i(x^*)\leq0 for i=1,...,k gi(x)0fori=1,...,k
  • 等式约束条件: h ( x ∗ ) = 0 \boldsymbol{h}(x^*)=0 h(x)=0
  • 二阶最优性条件: ∇ x x L ( x ∗ , μ , λ ∗ ) \nabla_{xx}\mathcal{L}(x^*,\boldsymbol{\mu},\boldsymbol{\lambda}^*) xxL(x,μ,λ)正定

  约束条件分为等式约束与不等式约束,对于等式约束的优化问题,可以直接应用拉格朗日乘子法去求取最优值;对于含有不等式约束的优化问题,可以转化为在满足 KKT约束条件下应用拉格朗日乘子法求解。拉格朗日求得的并不一定是最优解,只有在凸优化的情况下,才能保证得到的是最优解。

不可微情形:次梯度

  对于一个凸函数 f ( x ) f(x) f(x),若不等式
f ( x ˉ ) ≥ f ( x ) + < z , x ˉ − x > , ∀ x ˉ f(\bar{x})\geq f(x)+<z,\bar{x}-x>,\forall \bar{x} f(xˉ)f(x)+<z,xˉx>,xˉ

成立,则称向量 z z z为函数 f ( x ) f(x) f(x) x x x处的次梯度 f ( x ) f(x) f(x) x x x处的所有次梯度的集合称为次微分,记为 ∂ f ( x ) \partial f(x) f(x)
  绝对值函数 f ( x ) = ∣ x ∣ f(x)=|x| f(x)=x的次微分为:
∂ f ( x ) = { + 1 , x > 0 − 1 , x < 0 [ − 1 , + 1 ] , x = 0 \partial f(x)=\left\{ \begin{matrix} {+1},x>0\\ {-1},x<0\\ [-1,+1],x=0 \end{matrix} \right. f(x)=+1,x>01,x<0[1,+1],x=0

通常记 z ∈ s g n ( x ) z\in sgn(x) zsgn(x)

  设 f ( x ) f(x) f(x) g ( x ) g(x) g(x)均可微,给定仅含不等式的凸优化问题:
min ⁡ x f ( x ) s . t . g ( x ) ≤ 0 \min_{x} f(x)\quad s.t. \quad g(x)\leq0 xminf(x)s.t.g(x)0

定义Lagrange函数为: L ( x , λ ) = f ( x ) + λ g ( x ) \mathcal{L}(x,\lambda)=f(x)+\lambda g(x) L(x,λ)=f(x)+λg(x)

  若至少存在一点 x ˉ ∈ r e l i n t D \bar{x}\in relintD xˉrelintD 使得 g ( x ˉ ) < 0 g(\bar{x})<0 g(xˉ)<0成立,则 x ∗ x^* x为优化问题的最优解,当且仅当,存在唯一的 λ ∗ ≥ 0 \lambda^*\geq0 λ0使得KKT条件成立:

  • 拉格朗日条件: ∇ x L ( x ∗ , λ ∗ ) = ∇ f ( x ∗ ) + λ ∗ ∇ g ( x ∗ ) = 0 \nabla_{x}L(x^*,\lambda^*)=\nabla f(x^*)+\lambda^*\nabla g(x^*)=0 xL(x,λ)=f(x)+λg(x)=0
  • 可行条件: g ( x ∗ ) ≤ 0 g(x^*)\leq0 g(x)0
  • 互补松弛条件: λ ∗ g ( x ∗ ) = 0 \lambda^*g(x^*)=0 λg(x)=0

其中 r e l i n t D relintD relintD表示可行域 D D D 的相对内部(除去边界的部分)。

  若 f ( x ) f(x) f(x) g ( x ) g(x) g(x)至少有一个不可微,则将拉格朗日条件中的梯度替换为次梯度,得到广义的KKT理论
0 ∈ ∂ f ( x ∗ ) + λ ∗ ∂ g ( x ∗ ) 0\in\partial f(x^*)+\lambda^* \partial g(x^*) 0f(x)+λg(x)

拉格朗日对偶

原始问题

  一般约束优化问题:
{ min ⁡ x ∈ Ω f ( x ) s . t . g i ( x ) ≤ 0 , i = 1 , 2 , . . . , k h j ( x ) = 0 , j = 1 , 2 , . . . , l ( 2 ) \left\{\begin{matrix}\min_{x\in \Omega} f(x)\\\begin{aligned} s.t. g_i(x)&\leq0,i=1,2,...,k\\h_j(x)&=0,j=1,2,...,l \end{aligned} \end{matrix}\right.\quad\quad(2) minxΩf(x)s.t.gi(x)hj(x)0,i=1,2,...,k=0,j=1,2,...,l(2)

  定义拉格朗日函数:
L ( x , μ , λ ) = f ( x ) + ∑ j = 1 l μ j h j ( x ) + ∑ i = 1 k λ i g i ( x ) = f ( x ) + μ T h ( x ) + λ T g ( x ) \begin{aligned}\mathcal{L}(x,\boldsymbol{\mu},\boldsymbol{\lambda})&=f(x)+\sum_{j=1}^{l}\mu_jh_j(x)+\sum_{i=1}^{k}\lambda_ig_i(x)\\&=f(x)+\boldsymbol{\mu}^T\boldsymbol{h}(x)+\boldsymbol{\lambda}^T\boldsymbol{g}(x) \end{aligned} L(x,μ,λ)=f(x)+j=1lμjhj(x)+i=1kλigi(x)=f(x)+μTh(x)+λTg(x)

  定义 x x x的函数:
θ P ( x ) = max ⁡ μ , λ ; λ ≥ 0 L ( x , μ , λ ) \theta_P(x)=\max_{\boldsymbol{\mu},\boldsymbol{\lambda};\boldsymbol{\lambda}\geq\boldsymbol{0}}\mathcal{L}(x,\boldsymbol{\mu},\boldsymbol{\lambda}) θP(x)=μ,λ;λ0maxL(x,μ,λ)

θ P ( x ) = { f ( x ) g i ( x ) ≤ 0 , h j ( x ) = 0 + ∞ g i ( x ) > 0 , h j ( x ) ≠ 0 \theta_P(x)=\left\{\begin{matrix} f(x)&g_i(x)\leq0,h_j(x)=0\\ +\infty&g_i(x)>0,h_j(x)\neq0 \end{matrix}\right. θP(x)={f(x)+gi(x)0,hj(x)=0gi(x)>0,hj(x)=0

【说明】当 g i ( x ) ≤ 0 , h j ( x ) = 0 g_i(x)\leq0,h_j(x)=0 gi(x)0,hj(x)=0时, θ P ( x ) = max ⁡ μ , λ ; λ ≥ 0 f ( x ) + ∑ i = 1 k λ i g i ( x ) \theta_P(x)=\max_{\boldsymbol{\mu},\boldsymbol{\lambda};\boldsymbol{\lambda}\geq\boldsymbol{0}}f(x)+\sum_{i=1}^{k}\lambda_ig_i(x) θP(x)=maxμ,λ;λ0f(x)+i=1kλigi(x),取 λ i = 0 \lambda_i=0 λi=0 L ( x , μ , λ ) \mathcal{L}(x,\boldsymbol{\mu},\boldsymbol{\lambda}) L(x,μ,λ)取得极大值;当 g i ( x ) > 0 , h j ( x ) ≠ 0 g_i(x)>0,h_j(x)\neq0 gi(x)>0,hj(x)=0,可取 λ i → + ∞ , μ j h j ( x ) → + ∞ \lambda_i\rightarrow+\infty,\mu_jh_j(x)\rightarrow+\infty λi+,μjhj(x)+

这样便把带约束的原始问题转(2)化成等价的无约束问题:
min ⁡ x θ P ( x ) = min ⁡ x max ⁡ μ , λ ; λ ≥ 0 L ( x , μ , λ ) \min_{x}\theta_P(x)=\min_{x}\max_{\boldsymbol{\mu},\boldsymbol{\lambda};\boldsymbol{\lambda}\geq\boldsymbol{0}}\mathcal{L}(x,\boldsymbol{\mu},\boldsymbol{\lambda}) xminθP(x)=xminμ,λ;λ0maxL(x,μ,λ)

对偶问题

  定义对偶函数:
θ D ( μ , λ ) = min ⁡ x L ( x , μ , λ ) \theta_D(\boldsymbol{\mu},\boldsymbol{\lambda})=\min_{x}\mathcal{L}(x,\boldsymbol{\mu},\boldsymbol{\lambda}) θD(μ,λ)=xminL(x,μ,λ)
  定义对偶问题:
max ⁡ μ , λ ; λ ≥ 0 θ D ( μ , λ ) = max ⁡ μ , λ ; λ ≥ 0 min ⁡ x L ( x , μ , λ ) \max_{\boldsymbol{\mu},\boldsymbol{\lambda};\boldsymbol{\lambda}\geq\boldsymbol{0}}\theta_D(\boldsymbol{\mu},\boldsymbol{\lambda})=\max_{\boldsymbol{\mu},\boldsymbol{\lambda};\boldsymbol{\lambda}\geq\boldsymbol{0}}\min_{x}\mathcal{L}(x,\boldsymbol{\mu},\boldsymbol{\lambda}) μ,λ;λ0maxθD(μ,λ)=μ,λ;λ0maxxminL(x,μ,λ)

对偶问题是凸优化问题

θ D ( μ , λ ) = inf ⁡ x { f ( x ) + ∑ j = 1 l μ j h j ( x ) + ∑ i = 1 k λ i g i ( x ) } = − sup ⁡ x { − f ( x ) − ∑ j = 1 l μ j h j ( x ) − ∑ i = 1 k λ i g i ( x ) } \begin{aligned} \theta_D(\boldsymbol{\mu},\boldsymbol{\lambda})&=\inf_{x}\{f(x)+\sum_{j=1}^{l}\mu_jh_j(x)+\sum_{i=1}^{k}\lambda_ig_i(x)\}\\&=-\sup_{x}\{-f(x)-\sum_{j=1}^{l}\mu_jh_j(x)-\sum_{i=1}^{k}\lambda_ig_i(x)\} \end{aligned} θD(μ,λ)=xinf{f(x)+j=1lμjhj(x)+i=1kλigi(x)}=xsup{f(x)j=1lμjhj(x)i=1kλigi(x)}
max ⁡ μ , λ ; λ ≥ 0 θ D ( μ , λ ) = min ⁡ x sup ⁡ x { − f ( x ) − ∑ j = 1 l μ j h j ( x ) − ∑ i = 1 k λ i g i ( x ) } \max_{\boldsymbol{\mu},\boldsymbol{\lambda};\boldsymbol{\lambda}\geq\boldsymbol{0}}\theta_D(\boldsymbol{\mu},\boldsymbol{\lambda})=\min_{x}\sup_{x}\{-f(x)-\sum_{j=1}^{l}\mu_jh_j(x)-\sum_{i=1}^{k}\lambda_ig_i(x)\} μ,λ;λ0maxθD(μ,λ)=xminxsup{f(x)j=1lμjhj(x)i=1kλigi(x)}
仿射函数既是凸函数也是凹函数,凸函数的上确界仍是凸函数。

对偶问题的几何解释

  假设要求解的原始问题为:
min ⁡ x ∈ Ω f ( x ) s . t . g ( x ) ≤ 0 \min_{x\in \Omega} f(x)\quad s.t.\quad g(x)\leq0 xΩminf(x)s.t.g(x)0
拉格朗日函数: L ( x , λ ) = f ( x ) + λ g ( x ) \mathcal{L}(x,\lambda)=f(x)+\lambda g(x) L(x,λ)=f(x)+λg(x)

  定义如下集合:
G = { ( u , t ) ∣ u = g ( x ) , t = f ( x ) , x ∈ Ω } \mathcal{G}=\{(u,t)|u=g(x),t=f(x),x\in\Omega\} G={(u,t)u=g(x),t=f(x),xΩ}

  假设原始问题、对偶问题最优值均存在,记原始问题最优值为 p ∗ p^* p,对偶问题最优值为 d ∗ d^* d,则
p ∗ = inf ⁡ { t ∣ ( u , t ) ∈ G , u ≤ 0 } p^*=\inf\{t|(u,t)\in\mathcal{G},u\leq0\} p=inf{t(u,t)G,u0}

d ∗ = max ⁡ λ min ⁡ x L ( x , λ ) = max ⁡ λ min ⁡ x ( t + λ u ) = max ⁡ λ m ( λ ) d^*=\max_\lambda\min_{x}\mathcal{L}(x,\lambda)=\max_\lambda\min_{x}(t+\lambda u)=\max_\lambda m(\lambda) d=λmaxxminL(x,λ)=λmaxxmin(t+λu)=λmaxm(λ)

其中 m ( λ ) = min ⁡ x ( t + λ u ) = inf ⁡ x { t + λ u ∣ ( u , t ) ∈ G } m(\lambda)=\min_{x}(t+\lambda u)=\inf_x\{t+\lambda u|(u,t)\in\mathcal{G}\} m(λ)=minx(t+λu)=infx{t+λu(u,t)G}

  • p ∗ p^* p p ∗ p* p的表达式式表明原始问题最优值为在区域 G \mathcal{G} G内,寻找在 u ≤ 0 u\leq0 u0的条件下 t t t的最小值,在 t − u t-u tu图中反映为,将 G \mathcal{G} G u u u半轴区域投影到 t t t轴,得到的 t t t轴上的线段的最小值。

  • d ∗ d^* d:首先关于直线 t + λ u = Δ t+\lambda u=\Delta t+λu=Δ需指出:(1)纵轴截距为 Δ \Delta Δ;(2)斜率为 − λ -\lambda λ d ∗ d* d表达式中,对给定的 λ \lambda λ m ( λ ) m(\lambda) m(λ)为在区域 G \mathcal{G} G内,寻找 t + λ u t+\lambda u t+λu的最小值,在 t − u t-u tu图中反映为,给定斜率 λ \lambda λ,与 G \mathcal{G} G相交的直线 t + λ u = Δ t+\lambda u=\Delta t+λu=Δ中纵轴截距最小的直线对应的 Δ \Delta Δ;不同的 λ \lambda λ反映直线不同的斜率。

原始问题与对偶问题的关系

  假设原始问题、对偶问题都有最优值,记原始问题、对偶问题的最优值分别为 p ∗ = min ⁡ x θ P ( x ) = min ⁡ x max ⁡ μ , λ ; λ ≥ 0 L ( x , μ , λ ) p^*=\min_{x} \theta_P(x)=\min_{x}\max_{\boldsymbol{\mu},\boldsymbol{\lambda};\boldsymbol{\lambda}\geq\boldsymbol{0}}\mathcal{L}(x,\boldsymbol{\mu},\boldsymbol{\lambda}) p=xminθP(x)=xminμ,λ;λ0maxL(x,μ,λ) d ∗ = max ⁡ μ , λ ; λ ≥ 0 θ D ( μ , λ ) = max ⁡ μ , λ ; λ ≥ 0 min ⁡ x L ( x , μ , λ ) d^*=\max_{\boldsymbol{\mu},\boldsymbol{\lambda};\boldsymbol{\lambda}\geq\boldsymbol{0}}\theta_D(\boldsymbol{\mu},\boldsymbol{\lambda})=\max_{\boldsymbol{\mu},\boldsymbol{\lambda};\boldsymbol{\lambda}\geq\boldsymbol{0}}\min_{x}\mathcal{L}(x,\boldsymbol{\mu},\boldsymbol{\lambda}) d=μ,λ;λ0maxθD(μ,λ)=μ,λ;λ0maxxminL(x,μ,λ)

1. 弱对偶性

定理:对于任何优化问题,均有 d ∗ ≤ p ∗ d^*\leq p^* dp(弱对偶性)

证明:

∀ x , μ , λ \forall\quad x,\boldsymbol{\mu},\boldsymbol{\lambda} x,μ,λ有:
θ D ( μ , λ ) = min ⁡ x L ( x , μ , λ ) ≤ L ( x , μ , λ ) ≤ max ⁡ μ , λ ; λ ≥ 0 L ( x , μ , λ ) = θ P ( x ) \theta_D(\boldsymbol{\mu},\boldsymbol{\lambda})=\min_{x}\mathcal{L}(x,\boldsymbol{\mu},\boldsymbol{\lambda})\leq\mathcal{L}(x,\boldsymbol{\mu},\boldsymbol{\lambda})\leq\max_{\boldsymbol{\mu},\boldsymbol{\lambda};\boldsymbol{\lambda}\geq\boldsymbol{0}}\mathcal{L}(x,\boldsymbol{\mu},\boldsymbol{\lambda})=\theta_P(x) θD(μ,λ)=xminL(x,μ,λ)L(x,μ,λ)μ,λ;λ0maxL(x,μ,λ)=θP(x)
由任意性得:
d ∗ = max ⁡ μ , λ ; λ ≥ 0 θ D ( μ , λ ) ≤ min ⁡ x θ P ( x ) = p ∗ d^*=\max_{\boldsymbol{\mu},\boldsymbol{\lambda};\boldsymbol{\lambda}\geq\boldsymbol{0}}\theta_D(\boldsymbol{\mu},\boldsymbol{\lambda})\leq \min_{x} \theta_P(x)=p^* d=μ,λ;λ0maxθD(μ,λ)xminθP(x)=p

推论: x ∗ ; μ ∗ , λ ∗ x^*;\boldsymbol{\mu}^*,\boldsymbol{\lambda}^* x;μ,λ分别为原始问题和对偶问题的可行解,且 θ D ( μ ∗ , λ ∗ ) = θ P ( x ∗ ) \theta_D(\boldsymbol{\mu}^*,\boldsymbol{\lambda}^*)=\theta_P(x^*) θD(μ,λ)=θP(x),则 x ∗ ; μ ∗ , λ ∗ x^*;\boldsymbol{\mu}^*,\boldsymbol{\lambda}^* x;μ,λ分别为原始问题和对偶问题的最优解。

证明:

对原始问题的任一可行解 x x x,由上述定理, θ P ( x ) ≥ θ D ( μ ∗ , λ ∗ ) = θ P ( x ∗ ) \theta_P(x)\geq\theta_D(\boldsymbol{\mu}^*,\boldsymbol{\lambda}^*)=\theta_P(x^*) θP(x)θD(μ,λ)=θP(x),故 x ∗ x^* x是原始问题的最优解。对偶问题的任一可行解 μ , λ \mu,\lambda μ,λ,由上述定理, θ D ( μ , λ ) ≤ θ P ( x ∗ ) = θ D ( μ ∗ , λ ∗ ) \theta_D(\boldsymbol{\mu},\boldsymbol{\lambda})\leq\theta_P(x^*)=\theta_D(\boldsymbol{\mu}^*,\boldsymbol{\lambda}^*) θD(μ,λ)θP(x)=θD(μ,λ),故 μ ∗ , λ ∗ \boldsymbol{\mu}^*,\boldsymbol{\lambda}^* μ,λ是对偶问题的最优解。

2. 强对偶性

定义:强对偶性(strong duality)即满足 d ∗ = p ∗ d^*=p^* d=p

定理:设函数 f ( x ) , g i ( x ) f(x),g_i(x) f(x),gi(x)是凸函数, h j ( x ) h_j(x) hj(x)是仿射函数(最高次数为1的多项式函数),不等式约束是严格可行的,即 ∃ x g i ( x ) < 0 ∀ i \exists x\quad g_i(x)<0\quad \forall i xgi(x)<0i,则存在 x ∗ ; μ ∗ , λ ∗ x^*;\boldsymbol{\mu}^*,\boldsymbol{\lambda}^* x;μ,λ分别为原始问题和对偶问题的最优解,且 d ∗ = p ∗ = L ( x ∗ ; μ ∗ , λ ∗ ) d^*=p^*=\mathcal{L}(x^*;\boldsymbol{\mu}^*,\boldsymbol{\lambda}^*) d=p=L(x;μ,λ)

定理描述的这类优化问题一定满足强对偶性。

KKT条件:

设函数 f ( x ) , g i ( x ) f(x),g_i(x) f(x),gi(x)是凸函数, h j ( x ) h_j(x) hj(x)是仿射函数,不等式约束是严格可行的,则 x ∗ ; μ ∗ , λ ∗ x^*;\boldsymbol{\mu}^*,\boldsymbol{\lambda}^* x;μ,λ分别为原始问题和对偶问题的最优解 ⟺ \Longleftrightarrow x ∗ ; μ ∗ , λ ∗ x^*;\boldsymbol{\mu}^*,\boldsymbol{\lambda}^* x;μ,λ满足Karush-Kuhn-Tucker(KKT)条件:
1. ∇ x L ( x ∗ ; μ ∗ , λ ∗ ) = 0 2. λ i ∗ ≥ 0 f o r i = 1 , . . . , k 3. λ i ∗ g ( x ∗ ) = 0 f o r i = 1 , . . . , k 4. g i ( x ∗ ) ≤ 0 f o r i = 1 , . . . , k 5. h ( x ∗ ) = 0 \begin{aligned} &1.\nabla_{x}\mathcal{L}(x^*;\boldsymbol{\mu}^*,\boldsymbol{\lambda}^*)=0\\ &2.\lambda_i^*\geq0 for i=1,...,k\\ &3.\lambda_i^*g(x^*)=0 for i=1,...,k\\ &4.g_i(x^*)\leq0 for i=1,...,k\\ &5.\boldsymbol{h}(x^*)=0 \end{aligned} 1.xL(x;μ,λ)=02.λi0fori=1,...,k3.λig(x)=0fori=1,...,k4.gi(x)0fori=1,...,k5.h(x)=0

即约束优化问题的最优性条件,只不过这里是对上述定理中的优化问题描述了一遍。

强对偶性 ⇔ \Leftrightarrow KKT条件:

x ∗ x^* x为原始问题的最优解, μ ∗ , λ ∗ \boldsymbol{\mu}^*,\boldsymbol{\lambda}^* μ,λ为对偶问题的最优解,若满足强对偶性,则 x ∗ ; μ ∗ , λ ∗ x^*;\boldsymbol{\mu}^*,\boldsymbol{\lambda}^* x;μ,λ满足 KKT 条件,相反地,若满足KKT条件,则满足强对偶性。

证明:

d ∗ = max ⁡ μ , λ ; λ ≥ 0 θ D ( μ , λ ) = θ D ( μ ∗ , λ ∗ ) = min ⁡ x L ( x , μ ∗ , λ ∗ ) ≤ L ( x ∗ , μ ∗ , λ ∗ ) = f ( x ∗ ) + ∑ j = 1 l μ j h j ( x ∗ ) + ∑ i = 1 k λ i g i ( x ∗ ) = f ( x ∗ ) + ∑ i = 1 k λ i g i ( x ∗ ) ≤ f ( x ∗ ) = p ∗ \begin{aligned}d^*&=\max_{\boldsymbol{\mu},\boldsymbol{\lambda};\boldsymbol{\lambda}\geq\boldsymbol{0}}\theta_D(\boldsymbol{\mu},\boldsymbol{\lambda})=\theta_D(\boldsymbol{\mu}^*,\boldsymbol{\lambda}^*)=\min_{x}\mathcal{L}(x,\boldsymbol{\mu}^*,\boldsymbol{\lambda}^*)\\&\leq\mathcal{L}(x^*,\boldsymbol{\mu}^*,\boldsymbol{\lambda}^*)=f(x^*)+\sum_{j=1}^{l}\mu_jh_j(x^*)+\sum_{i=1}^{k}\lambda_ig_i(x^*)\\&=f(x^*)+\sum_{i=1}^{k}\lambda_ig_i(x^*)\leq f(x^*)=p^*\end{aligned} d=μ,λ;λ0maxθD(μ,λ)=θD(μ,λ)=xminL(x,μ,λ)L(x,μ,λ)=f(x)+j=1lμjhj(x)+i=1kλigi(x)=f(x)+i=1kλigi(x)f(x)=p

(1)若 d ∗ = p ∗ d^*=p^* d=p,则上式不等式全为等式,
f ( x ∗ ) + ∑ i = 1 k λ i g i ( x ∗ ) = f ( x ∗ ) ⇒ ∑ i = 1 k λ i g i ( x ∗ ) = 0 ⇒ λ i g i ( x ∗ ) = 0 ∀ i f(x^*)+\sum_{i=1}^{k}\lambda_ig_i(x^*)=f(x^*)\Rightarrow \sum_{i=1}^{k}\lambda_ig_i(x^*)=0\Rightarrow \lambda_ig_i(x^*)=0\forall i f(x)+i=1kλigi(x)=f(x)i=1kλigi(x)=0λigi(x)=0i
min ⁡ x L ( x , μ ∗ , λ ∗ ) = L ( x ∗ , μ ∗ , λ ∗ ) ⇒ ∇ x L ( x ∗ ; μ ∗ , λ ∗ ) = 0 \min_{x}\mathcal{L}(x,\boldsymbol{\mu}^*,\boldsymbol{\lambda}^*)=\mathcal{L}(x^*,\boldsymbol{\mu}^*,\boldsymbol{\lambda}^*)\Rightarrow \nabla_{x}\mathcal{L}(x^*;\boldsymbol{\mu}^*,\boldsymbol{\lambda}^*)=0 xminL(x,μ,λ)=L(x,μ,λ)xL(x;μ,λ)=0
推得KKT条件1、3,其他条件为可行性条件。

(2)若KKT条件成立,(1)中箭头反向亦成立,上式不等式全为等式,推得 d ∗ = p ∗ d^*=p^* d=p

凸优化+Slater条件 ⇒ \Rightarrow 强对偶性:

若原始问题为凸优化问题,且满足slater条件,则存在 x ∗ , μ ∗ , λ ∗ x^*,\boldsymbol{\mu}^*,\boldsymbol{\lambda}^* x,μ,λ使得 x ∗ x^* x为原始问题最优解, μ ∗ , λ ∗ \boldsymbol{\mu}^*,\boldsymbol{\lambda}^* μ,λ为对偶问题最优解,且满足 d ∗ = p ∗ = L ( x ∗ , μ ∗ , λ ∗ ) d^*=p^*=\mathcal{L}(x^*,\boldsymbol{\mu}^*,\boldsymbol{\lambda}^*) d=p=L(x,μ,λ)

注:
Slater条件:至少存在一点 x ∈ r e l i n t Ω s . t . g i ( x ) < 0 , i = 1 , . . . , k x\in relint \Omega\quad s.t.\quad g_i(x)<0,i=1,...,k xrelintΩs.t.gi(x)<0,i=1,...,k,其中 r e l i n t Ω relint \Omega relintΩ表示可行域 Ω \Omega Ω的相对内部(除去边界的部分)。

放松的slater条件:若 g i ( x ) g_i(x) gi(x)中有一部分是仿射函数( m m m个),只需其余 k − m k-m km个函数满足 x ∈ r e l i n t Ω s . t . g i ( x ) < 0 x\in relint \Omega\quad s.t.\quad g_i(x)<0 xrelintΩs.t.gi(x)<0

  • 对于大多数凸优化问题,slater条件是成立的。
  • 2
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值