凸优化之对偶理论的理解

对偶

对偶理论 p r i m a l   d u a l primal \ dual primal dual

有约束问题的无约束形式

对于有约束优化问题

minimize f 0 ( x ) subject to { f i ( x ) ⩽ 0 , i = 1 , ⋯   , m h i ( x ) = 0 , i = 1 , ⋯   , p \begin{aligned} & \text{minimize} \quad f_0(x) \\ & \quad \\ & \text{subject to} \quad \left\{ \begin{array}{rcl} f_i(x) \leqslant 0, & & {i = 1, \cdots ,m}\\ h_i(x) =0, & & {i = 1, \cdots, p}\\ \end{array} \right. \end{aligned} minimizef0(x)subject to{fi(x)0,hi(x)=0,i=1,,mi=1,,p
定义域
D = ⋂ i = 0 m dom ⁡ f i ∩ ⋂ i = 1 p dom ⁡ h i \mathcal{D} =\bigcap_{i=0}^{m} \operatorname{dom} f_{i} \cap \bigcap_{i=1}^{p} \operatorname{dom} h_{i} D=i=0mdomfii=1pdomhi
可转化为无约束优化问题,即
minimize f 0 ( x ) + ∑ i = 1 m I − ( f i ( x ) ) + ∑ i = 1 p I 0 ( h i ( x ) ) \begin{aligned} \text{minimize} \quad f_0(x) + \sum_{i=1}^{m} I_{-}(f_i(x)) + \sum_{i=1}^{p} I_{0}(h_i(x)) \end{aligned} minimizef0(x)+i=1mI(fi(x))+i=1pI0(hi(x))
其中
I − ( u ) = { 0   u ⩽ 0 ∞ u ≥ 0 I 0 ( u ) = { 1 u ∈ { 0 } 0 u ∉ { 0 } \begin{aligned} I_{-}(u) &= \left\{ \begin{array}{rcl} 0 \ & & {u \leqslant 0}\\ \infty & & {u \geq 0}\\ \end{array} \right. \\ \quad \\ I_{0}(u) &= \left\{ \begin{array}{rcl} 1 & & u \in \{ 0 \} \\ 0 & & u \not\in \{ 0 \}\\ \end{array} \right. \end{aligned} I(u)I0(u)={0 u0u0={10u{0}u{0}

I 0 ( u ) I_{0}(u) I0(u) 可看成是集合 { 0 } \{0\} {0} 的示性函数, I − ( u ) I_{-}(u) I(u) 可看成是对原问题违反约束 f i ( x ) f_i(x) fi(x) 的一种惩罚,一旦原问题违反约束, 则 f i ( x ) f_i(x) fi(x) 的值会大于0, 则 I − ( u ) = ∞ I_{-}(u) = \infty I(u)=, 整个无约束函数的最小值为 ∞ \infty .

Lagrange \text{Lagrange} Lagrange 函数,自变量为 x , λ , v x,\lambda, v x,λ,v

Lagrange \text{Lagrange} Lagrange 函数的定义为:
L ( x , λ , v ) = f 0 ( x ) + ∑ i = 1 m λ i f i ( x ) + ∑ i = 1 p v i h i ( x ) , x ∈ R n , λ ∈ R + m , v ∈ R p \begin{aligned} L(x,\lambda,v) = f_0(x) + \sum_{i=1}^{m} \lambda_i f_i(x) + \sum_{i=1}^{p} v_i h_i(x), x \in R^n, \lambda \in R_+^m , v \in R^p \end{aligned} L(x,λ,v)=f0(x)+i=1mλifi(x)+i=1pvihi(x),xRn,λR+m,vRp
可以看出,有约束问题的无约束形式与 Lagrange \text{Lagrange} Lagrange 函数有些相似,我们可以认为, Lagrange \text{Lagrange} Lagrange 函数用线性的惩罚函数(或者惩罚力度比较弱的惩罚函数)代替了函数 I 0 ( u ) I_{0}(u) I0(u), I − ( u ) I_{-}(u) I(u).

对于不等式约束,如果 f i ( x ) ≥ 0 f_i(x) \geq 0 fi(x)0, 那么惩罚力度开始增加, 如果 f i ( x ) < 0 f_i(x) < 0 fi(x)<0,不但没有惩罚,反而会有奖励,即 minimize  L ( x , λ , v ) \text{minimize} \ L(x,\lambda,v) minimize L(x,λ,v) 会取到更小的值.

对于等式约束,待补充.

用线性函数 λ i u i \lambda_i u_i λiui 去逼近 I − ( u ) I_-(u) I(u) 是远远不够的,但是线性函数至少可以看成是示性函数的一个下估计, 我们可以得到, 对偶函数是原问题最优函数值的一个下界.

Lagrange \text{Lagrange} Lagrange 对偶函数,自变量为 λ , v \lambda, v λ,v

Lagrange \text{Lagrange} Lagrange 对偶函数的定义为:
g ( λ , v ) = inf ⁡ x ∈ D   L ( x , λ , v ) = inf ⁡ x ∈ D   ( f 0 ( x ) + ∑ i = 1 m λ i f i ( x ) + ∑ i = 1 p v i h i ( x ) ) , λ ∈ R + m , v ∈ R p , D 是 原 问 题 的 定 义 域 g(\lambda,v) = \underset{x \in \mathcal{D}}{\inf} \ L(x,\lambda,v) = \underset{x \in \mathcal{D}}{\inf} \ \left ( f_0(x) + \sum_{i=1}^{m} \lambda_i f_i(x) + \sum_{i=1}^{p} v_i h_i(x) \right ), \\ \lambda \in R_+^m , v \in R^p, \mathcal{D}是原问题的定义域 g(λ,v)=xDinf L(x,λ,v)=xDinf (f0(x)+i=1mλifi(x)+i=1pvihi(x)),λR+m,vRp,D
Lagrange \text{Lagrange} Lagrange 对偶函数相比于 Lagrange \text{Lagrange} Lagrange 函数,多出了对 x ( x ∈ D ) x(x \in \mathcal{D}) x(xD) 求最大下确界的过程,变量 x x x 被对偶函数所隐藏.

注意,这里 Lagrange \text{Lagrange} Lagrange 对偶函数和原问题的定义域是相同的,都为 D \mathcal{D} D, 这很关键.

证明 Lagrange \text{Lagrange} Lagrange 对偶函数构成了原问题最优值 p ∗ p^* p 的下界

对任意的 λ ⪰ 0 \lambda \succeq 0 λ0 v v v, 下式成立:

g ( λ , v ) ⩽ p ∗ g(\lambda,v) \leqslant p^* g(λ,v)p

证明:

x ~ \tilde{x} x~ 是原问题在定义域 D \mathcal{D} D 中的一个可行点(不一定是最优点), 正是由于 x ~ ∈ D \tilde{x} \in \mathcal{D} x~D,所以有 f i ( x ~ ) ⩽ 0 , h i ( x ~ ) = 0 , f_i(\tilde{x}) \leqslant 0,h_i(\tilde{x}) = 0, fi(x~)0,hi(x~)=0, 根据假设 λ ⪰ 0 , \lambda \succeq 0, λ0, 我们有

∑ i = 1 m λ i f i ( x ~ ) + ∑ i = 1 p v i h i ( x ~ ) = ∑ i = 1 m λ i f i ( x ~ ) + ∑ i = 1 p v i ∗ 0 = ∑ i = 1 m λ i f i ( x ~ ) ⩽ 0 \begin{aligned} & \sum_{i=1}^{m} \lambda_i f_i(\tilde{x}) + \sum_{i=1}^{p} v_i h_i(\tilde{x})\\ &= \sum_{i=1}^{m} \lambda_i f_i(\tilde{x}) + \sum_{i=1}^{p} v_i* 0\\ &= \sum_{i=1}^{m} \lambda_i f_i(\tilde{x}) \leqslant 0\\ \end{aligned} i=1mλifi(x~)+i=1pvihi(x~)=i=1mλifi(x~)+i=1pvi0=i=1mλifi(x~)0

L ( x ~ , λ , v ) = f 0 ( x ~ ) + ∑ i = 1 m λ i f i ( x ~ ) + ∑ i = 1 p v i h i ( x ~ ) = f 0 ( x ~ ) + ∑ i = 1 m λ i f i ( x ~ ) ⩽ f 0 ( x ~ ) \begin{aligned} L(\tilde{x}, \lambda,v) &=f_0(\tilde{x}) + \sum_{i=1}^{m} \lambda_i f_i(\tilde{x}) + \sum_{i=1}^{p} v_i h_i(\tilde{x}) \\ &=f_0(\tilde{x}) + \sum_{i=1}^{m} \lambda_i f_i(\tilde{x}) \leqslant f_0(\tilde{x}) \end{aligned} L(x~,λ,v)=f0(x~)+i=1mλifi(x~)+i=1pvihi(x~)=f0(x~)+i=1mλifi(x~)f0(x~)
inf ⁡ x ∈ D   L ( x , λ , v ) \underset{x \in \mathcal{D}}{\inf}\ L(x, \lambda,v) xDinf L(x,λ,v) 表明函数 L ( x , λ , v ) L(x, \lambda,v) L(x,λ,v) 在集合 D \mathcal{D} D 中的下界, 因此有
g ( λ , v ) = inf ⁡ x ∈ D   L ( x , λ , v ) ⩽ L ( x ~ , λ , v ) ⩽ f 0 ( x ~ ) \begin{aligned} g(\lambda,v) = \underset{x \in \mathcal{D}}{\inf}\ L(x, \lambda,v) \leqslant L(\tilde{x}, \lambda,v) \leqslant f_0(\tilde{x}) \end{aligned} g(λ,v)=xDinf L(x,λ,v)L(x~,λ,v)f0(x~)
因此 Lagrange \text{Lagrange} Lagrange 对偶函数构成了原问题最优值 p ∗ p^* p 的下界.

证明 Lagrange \text{Lagrange} Lagrange 对偶函数为凹函数

无论原问题是否为凸问题, 无论 f 0 ( x ) , f i ( x ) , h i ( x ) f_0(x),f_i(x),h_i(x) f0(x),fi(x),hi(x) 是什么类型的函数. 但 Lagrange \text{Lagrange} Lagrange 对偶函数是一个凹函数, 证明思路如下:
集合 D \mathcal{D} D 无论是否连续,都可以看成是变量 x x x 的有限集合,当对偶函数 g ( λ , v ) g(\lambda,v) g(λ,v) 中的
λ , v \lambda,v λ,v 为定值时,则对于集合 D \mathcal{D} D 中的每一个 x i x_i xi 都有 f i ( x i ) f_i(x_i) fi(xi) , h i ( x i ) h_i(x_i) hi(xi) 与之对应,


λ = [   λ 1 , λ 2 , ⋯   , λ m   ] v = [   v 1 , v 2 , ⋯   , v p   ] F ( x ) = [   f 1 ( x ) , f 2 ( x ) , ⋯   , f m ( x )   ] H ( x ) = [   h 1 ( x ) , h 2 ( x ) , ⋯   , h p ( x )   ] D = { x 0 , x 1 , ⋯   , x n } , 当 集 合 D 为 连 续 值 集 合 时 , n → ∞ \begin{aligned} \lambda &= [\ \lambda_1, \lambda_2, \cdots, \lambda_m \ ] \\ v &= [\ v_1, v_2, \cdots, v_p \ ] \\ F(x) &= [\ f_1(x), f_2(x), \cdots, f_m(x) \ ] \\ H(x) &= [\ h_1(x), h_2(x), \cdots, h_p(x) \ ] \\ \mathcal{D} &= \{ x_0,x_1,\cdots , x_n \}, \quad 当集合\mathcal{D}为连续值集合时,n \rightarrow \infty \end{aligned} λvF(x)H(x)D=[ λ1,λ2,,λm ]=[ v1,v2,,vp ]=[ f1(x),f2(x),,fm(x) ]=[ h1(x),h2(x),,hp(x) ]={x0,x1,,xn},D,n

g ( λ , v ) = inf ⁡ x ∈ D   L ( x , λ , v ) = inf ⁡ x ∈ D   ( f 0 ( x ) + ∑ i = 1 m λ i f i ( x ) + ∑ i = 1 p v i h i ( x ) ) = inf ⁡ x ∈ D   ( f 0 ( x ) + λ F ( x ) T + v H ( x ) T ) \begin{aligned} g(\lambda,v) &= \underset{x \in \mathcal{D}}{\inf} \ L(x,\lambda,v) \\ &= \underset{x \in \mathcal{D}}{\inf} \ \left ( f_0(x) + \sum_{i=1}^{m} \lambda_i f_i(x) + \sum_{i=1}^{p} v_i h_i(x) \right ) \\ &= \underset{x \in \mathcal{D}}{\inf} \ \left ( f_0(x) + \lambda F(x)^T + v H(x)^T \right ) \\ \end{aligned} g(λ,v)=xDinf L(x,λ,v)=xDinf (f0(x)+i=1mλifi(x)+i=1pvihi(x))=xDinf (f0(x)+λF(x)T+vH(x)T)
则有
g ( λ , v ) = inf ⁡ x ∈ D   L ( x , λ , v ) = inf ⁡ [ ( f 0 ( x 0 ) + λ F ( x 0 ) T + v H ( x 0 ) T ) , ( f 0 ( x 1 ) + λ F ( x 1 ) T + v H ( x 1 ) T ) , ⋯   , ( f 0 ( x n ) + λ F ( x n ) T + v H ( x n ) T ) ] \begin{aligned} g(\lambda,v) &= \underset{x \in \mathcal{D}}{\inf} \ L(x,\lambda,v) \\ &= \inf \left [ \left ( f_0(x_0) + \lambda F(x_0)^T + v H(x_0)^T \right ), \left ( f_0(x_1) + \lambda F(x_1)^T + v H(x_1)^T \right ), \cdots, \left ( f_0(x_n) + \lambda F(x_n)^T + v H(x_n)^T \right ) \right ] \\ \end{aligned} g(λ,v)=xDinf L(x,λ,v)=inf[(f0(x0)+λF(x0)T+vH(x0)T),(f0(x1)+λF(x1)T+vH(x1)T),,(f0(xn)+λF(xn)T+vH(xn)T)]
为了方便书写和观察,令
A i = f 0 ( x i ) B i = F ( x i ) C i = H ( x i ) \begin{aligned} A_i &= f_0(x_i) \\ B_i &= F(x_i) \\ C_i &= H(x_i)\\ \end{aligned} AiBiCi=f0(xi)=F(xi)=H(xi)

g ( λ , v ) = inf ⁡ x ∈ D   L ( x , λ , v ) = inf ⁡ [ ( f 0 ( x 0 ) + λ F ( x 0 ) T + v H ( x 0 ) T ) , ( f 0 ( x 1 ) + λ F ( x 1 ) T + v H ( x 1 ) T ) , ⋯   , ( f 0 ( x n ) + λ F ( x n ) T + v H ( x n ) T ) ] = inf ⁡ [ ( A 0 + λ B 0 T + v C 0 T ) , ( A 1 + λ B 1 T + v C 1 T ) , ⋯   , ( A n + λ B n T + v C n T ) ] \begin{aligned} g(\lambda,v) &= \underset{x \in \mathcal{D}}{\inf} \ L(x,\lambda,v) \\ &= \inf \left [ \left ( f_0(x_0) + \lambda F(x_0)^T + v H(x_0)^T \right ), \left ( f_0(x_1) + \lambda F(x_1)^T + v H(x_1)^T \right ), \cdots, \left ( f_0(x_n) + \lambda F(x_n)^T + v H(x_n)^T \right ) \right ] \\ &= \inf \left [ \left ( A_0 + \lambda B_0^T + v C_0^T \right ), \left ( A_1 + \lambda B_1^T + v C_1^T \right ), \cdots, \left ( A_n + \lambda B_n^T + v C_n^T \right ) \right ] \\ \end{aligned} g(λ,v)=xDinf L(x,λ,v)=inf[(f0(x0)+λF(x0)T+vH(x0)T),(f0(x1)+λF(x1)T+vH(x1)T),,(f0(xn)+λF(xn)T+vH(xn)T)]=inf[(A0+λB0T+vC0T),(A1+λB1T+vC1T),,(An+λBnT+vCnT)]
易知 A i + λ B i T + v C i T A_i + \lambda B_i^T + v C_i^T Ai+λBiT+vCiT 是关于变量 λ , v \lambda,v λ,v 的仿射函数
因为 凹函数的逐点最大下确界仍是凹函数(仿射函数即是凹函数,也是凸函数), 因此 Lagrange \text{Lagrange} Lagrange 对偶函数仍是凹函数.

Lagrange \text{Lagrange} Lagrange 对偶问题

Lagrange \text{Lagrange} Lagrange 对偶问题的形式如下所示:
maximize g ( λ , v ) subject to λ ⪰ 0 \begin{aligned} & \text{maximize} \quad g(\lambda,v) \\ & \quad \\ & \text{subject to} \quad \lambda \succeq 0 \end{aligned} maximizeg(λ,v)subject toλ0
Lagrange \text{Lagrange} Lagrange 对偶问题 可以用来寻找 Lagrange \text{Lagrange} Lagrange 对偶函数 的最大值.由前面的内容可知, Lagrange \text{Lagrange} Lagrange 对偶函数 可以在 λ , v \lambda, v λ,v 确定的情况下,对 x   ( x ∈ D ) x \ (x \in \mathcal{D}) x (xD) Lagrange \text{Lagrange} Lagrange 函数 的最大下确界(最小值),我们将 Lagrange \text{Lagrange} Lagrange 对偶问题写成如下形式:
max λ ⪰ 0 inf ⁡ x ∈ D   L ( x , λ , v ) \begin{aligned} \underset{\lambda \succeq 0}{\text{max}} \underset{x \in \mathcal{D}}{\inf} \ L(x,\lambda,v) \end{aligned} λ0maxxDinf L(x,λ,v)
或者如下形式(当 max \text{max} max 可以取到时)
sup ⁡ λ ⪰ 0 inf ⁡ x ∈ D   L ( x , λ , v ) \begin{aligned} \underset{\lambda \succeq 0}{\sup} \underset{x \in \mathcal{D}}{\inf} \ L(x,\lambda,v) \end{aligned} λ0supxDinf L(x,λ,v)

Lagrange \text{Lagrange} Lagrange 对偶的鞍点解释, 矮个子里挑高个子 和 高个子里挑矮个子

为了简化讨论,假设原问题没有等式约束
minimize f 0 ( x ) subject to f i ( x ) ⩽ 0 , i = 1 , ⋯   , m \begin{aligned} & \text{minimize} \quad f_0(x) \\ & \quad \\ & \text{subject to} \quad f_i(x) \leqslant 0, & & {i = 1, \cdots ,m}\\ \end{aligned} minimizef0(x)subject tofi(x)0,i=1,,m
原问题的最优值 p ∗ p^* p 与下面这个问题的最优值等价:

构造原问题的 Lagrange \text{Lagrange} Lagrange 函数,即:
L ( x , λ ) = f 0 ( x ) + ∑ i = 1 m λ i f i ( x ) \begin{aligned} L(x,\lambda) = f_0(x) + \sum_{i=1}^{m} \lambda_i f_i(x) \end{aligned} L(x,λ)=f0(x)+i=1mλifi(x)
Lagrange \text{Lagrange} Lagrange 函数在 x x x确定的情况下, 对 λ ⪰ 0 \lambda \succeq 0 λ0 求最小上确界:
sup ⁡ λ ⪰ 0 L ( x , λ ) = sup ⁡ λ ⪰ 0 ( f 0 ( x ) + ∑ i = 1 m λ i f i ( x ) ) = { f 0 ( x ) f i ( x ) ⩽ 0 , i = 1 , ⋯   , m ∞ otherwise \begin{aligned} \underset{\lambda \succeq 0}{\sup} L(x,\lambda) &= \underset{\lambda \succeq 0}{\sup} \Big ( f_0(x) + \sum_{i=1}^{m} \lambda_i f_i(x) \Big ) \\ &= \left\{ \begin{array}{rcl} f_0(x) & & {f_i(x) \leqslant 0, i = 1, \cdots ,m}\\ \infty \quad & & {\text{otherwise}}\\ \end{array} \right. \end{aligned} λ0supL(x,λ)=λ0sup(f0(x)+i=1mλifi(x))={f0(x)fi(x)0,i=1,,motherwise
f i ( x ) > 0 f_i(x) > 0 fi(x)>0时,只需要让相应的 λ i = + ∞ \lambda_i= + \infty λi=+ 其余 λ j = 0   ( i ≠ j ) \lambda_j= 0 \ (i \neq j) λj=0 (i=j),则 Lagrange \text{Lagrange} Lagrange 函数对 λ ⪰ 0 \lambda \succeq 0 λ0 求最小上确界的结果为 + ∞ +\infty +, 此时无论 f 0 ( x ) f_0(x) f0(x) 的值是多少都无意义, 在这里不考虑 f 0 ( x i ) = ± ∞ f_0(x_i)= \pm \infty f0(xi)=±. 这种情况下, 我们将无法取得一个有效值, 因此讨论这种情况的最小上确界无意义.

求得 sup ⁡ λ ⪰ 0 L ( x , λ ) \underset{\lambda \succeq 0}{\sup} L(x,\lambda) λ0supL(x,λ) 的结果之后, 再求在 x ∈ D x \in \mathcal{D} xD 的情况下对 sup ⁡ λ ⪰ 0 L ( x , λ ) \underset{\lambda \succeq 0}{\sup} L(x,\lambda) λ0supL(x,λ) 求最大下确界, 即 inf ⁡ x ∈ D   sup ⁡ λ ⪰ 0 L ( x , λ ) \underset{x \in \mathcal{D}}{\inf} \ \underset{\lambda \succeq 0}{\sup} L(x,\lambda) xDinf λ0supL(x,λ), 这等价于求解原问题. 令原问题的最优值为 p ∗ p^* p :
p ∗ = inf ⁡ x ∈ D   sup ⁡ λ ⪰ 0 L ( x , λ ) = inf ⁡ x ∈ D   sup ⁡ λ ⪰ 0 ( f 0 ( x ) + ∑ i = 1 m λ i f i ( x ) ) = inf ⁡ x ∈ D   { f 0 ( x ) f i ( x ) ⩽ 0 , i = 1 , ⋯   , m ∞ otherwise = inf ⁡ x ∈ D   f 0 ( x ) subject to f i ( x ) ⩽ 0 , i = 1 , ⋯   , m = min x ∈ D   f 0 ( x ) subject to f i ( x ) ⩽ 0 , i = 1 , ⋯   , m ( 如 果 最 小 值 可 以 取 到 , 则 sup ⁡ 与 min 等 价 ) \begin{aligned} p^* &= \underset{x \in \mathcal{D}}{\inf} \ \underset{\lambda \succeq 0}{\sup} L(x,\lambda) \\ &=\underset{x \in \mathcal{D}}{\inf} \ \underset{\lambda \succeq 0}{\sup} \Big ( f_0(x) + \sum_{i=1}^{m} \lambda_i f_i(x) \Big )\\ &=\underset{x \in \mathcal{D}}{\inf} \ \left\{ \begin{array}{rcl} f_0(x) & & {f_i(x) \leqslant 0, i = 1, \cdots ,m}\\ \infty \quad & & {\text{otherwise}}\\ \end{array} \right.\\ &=\underset{x \in \mathcal{D}}{\inf} \ f_0(x) \quad \text{subject to} \quad f_i(x) \leqslant 0, i = 1, \cdots ,m \\ &=\underset{x \in \mathcal{D}}{\text{min}} \ f_0(x) \quad \text{subject to} \quad f_i(x) \leqslant 0, i = 1, \cdots ,m \\ & (如果最小值可以取到,则 \sup 与\text{min}等价 ) \end{aligned} p=xDinf λ0supL(x,λ)=xDinf λ0sup(f0(x)+i=1mλifi(x))=xDinf {f0(x)fi(x)0,i=1,,motherwise=xDinf f0(x)subject tofi(x)0,i=1,,m=xDmin f0(x)subject tofi(x)0,i=1,,m(,supmin)
设对偶问题的最优值为 d ∗ d^* d, 根据对偶问题的定义:
d ∗ = sup ⁡ λ ⪰ 0   g ( λ , v ) = sup ⁡ λ ⪰ 0   inf ⁡ x ∈ D   L ( x , λ ) = sup ⁡ λ ⪰ 0   inf ⁡ x ∈ D   ( f 0 ( x ) + ∑ i = 1 m λ i f i ( x ) ) \begin{aligned} d^* &= \underset{\lambda \succeq 0}{\sup} \ g(\lambda,v) \\ &= \underset{\lambda \succeq 0}{\sup} \ \underset{x \in \mathcal{D}}{\inf} \ L(x,\lambda) \\ &= \underset{\lambda \succeq 0}{\sup} \ \underset{x \in \mathcal{D}}{\inf} \ \Big ( f_0(x) + \sum_{i=1}^{m} \lambda_i f_i(x) \Big )\\ \end{aligned} d=λ0sup g(λ,v)=λ0sup xDinf L(x,λ)=λ0sup xDinf (f0(x)+i=1mλifi(x))
因此弱对偶性可以表示为下述不等式
对 偶 问 题 的 最 优 值   d ∗ ⩽ 原 问 题 的 最 优 值   p ∗ d ∗ ⩽ p ∗ sup ⁡ λ ⪰ 0   inf ⁡ x ∈ D   L ( x , λ ) ⩽ inf ⁡ x ∈ D   sup ⁡ λ ⪰ 0   L ( x , λ ) \begin{aligned} 对偶问题的最优值 \ d^* & \leqslant 原问题的最优值 \ p^* \\ d^* & \leqslant p^* \\ \underset{\lambda \succeq 0}{\sup} \ \underset{x \in \mathcal{D}}{\inf} \ L(x,\lambda) & \leqslant \underset{x \in \mathcal{D}}{\inf} \ \underset{\lambda \succeq 0}{\sup} \ L(x,\lambda) \end{aligned}  ddλ0sup xDinf L(x,λ) ppxDinf λ0sup L(x,λ)
强对偶性可以表示为下述等式
对 偶 问 题 的 最 优 值   d ∗ = 原 问 题 的 最 优 值   p ∗ d ∗ = p ∗ sup ⁡ λ ⪰ 0   inf ⁡ x ∈ D   L ( x , λ ) = inf ⁡ x ∈ D   sup ⁡ λ ⪰ 0   L ( x , λ ) \begin{aligned} 对偶问题的最优值 \ d^* & = 原问题的最优值 \ p^* \\ d^* & = p^* \\ \underset{\lambda \succeq 0}{\sup} \ \underset{x \in \mathcal{D}}{\inf} \ L(x,\lambda) & = \underset{x \in \mathcal{D}}{\inf} \ \underset{\lambda \succeq 0}{\sup} \ L(x,\lambda) \end{aligned}  ddλ0sup xDinf L(x,λ)= p=p=xDinf λ0sup L(x,λ)
p ∗ = d ∗ p^* = d^* p=d 时,强对偶成立, 强对偶性意味着对 x x x 求极小和对 λ ⪰ 0 \lambda \succeq 0 λ0 求极大可以互换而不影响结果.

鞍点定义

我们称一对 w ~ ∈ W \tilde{w} \in W w~W 是函数 f f f (以及 W W W Z Z Z ) 的鞍点,如果对任意 w ∈ W w \in W wW z ∈ Z z \in Z zZ 下式成立
f ( w ~ , z ) ⩽ f ( w ~ , z ~ ) ⩽ f ( w , z ~ ) . f(\tilde{w}, z) \leqslant f(\tilde{w}, \tilde{z}) \leqslant f(w, \tilde{z}). f(w~,z)f(w~,z~)f(w,z~).
换言之, g 1 ( w ) = f ( w , z ~ ) g_1(w) = f(w, \tilde{z}) g1(w)=f(w,z~) w ~ \tilde{w} w~ 处取得最小值(关于变量 w ∈ W w \in W wW ), g 2 ( z ) = f ( w ~ , z ) g_2(z) = f(\tilde{w}, z) g2(z)=f(w~,z) z ~ \tilde{z} z~ 处取得最大值(关于变量 z ∈ W z \in W zW ):
f ( w ~ , z ~ ) = inf ⁡ w ∈ W f ( w , z ~ ) , f ( w ~ , z ~ ) = sup ⁡ z ∈ Z f ( w ~ , z ) f(\tilde{w}, \tilde{z})=\inf _{w \in W} f(w, \tilde{z}), \quad f(\tilde{w}, \tilde{z})=\sup _{z \in Z} f(\tilde{w}, z) f(w~,z~)=wWinff(w,z~),f(w~,z~)=zZsupf(w~,z)
上式意味着强极大极小性质成立,且共同值为 f ( w ~ , z ~ ) f(\tilde{w}, \tilde{z}) f(w~,z~).
回到我们关于 Lagrange \text{Lagrange} Lagrange 对偶的讨论,如果 x ∗ x^* x λ ∗ \lambda^* λ 分别是原问题和对偶问题的最优点,且强对偶性成立,则它们是 Lagrange \text{Lagrange} Lagrange 函数的一个鞍点.

反过来同样成立: 如果 ( x , λ x,\lambda x,λ) 是 Lagrange \text{Lagrange} Lagrange 函数的一个鞍点,那么 x x x 是原问题的最优解, λ \lambda λ 是对偶问题的最优解,且最优对偶间隙为零.

对偶的操作

在本文中, 我们可以看到对偶操作消去了一些变量, 用集合中显性的值来取代某一变量, 另外, 构造了许多的仿射函数, 最后,进行取最大下界或最小上界操作. 我们应该学会这种变换思想

参考资料

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

wowotou1998

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值