对偶理论的理解
- 对偶
- 对偶理论 p r i m a l d u a l primal \ dual primal dual
- 有约束问题的无约束形式
- Lagrange \text{Lagrange} Lagrange 函数,自变量为 x , λ , v x,\lambda, v x,λ,v
- Lagrange \text{Lagrange} Lagrange 对偶函数,自变量为 λ , v \lambda, v λ,v
- 证明 Lagrange \text{Lagrange} Lagrange 对偶函数构成了原问题最优值 p ∗ p^* p∗ 的下界
- 证明 Lagrange \text{Lagrange} Lagrange 对偶函数为凹函数
- Lagrange \text{Lagrange} Lagrange 对偶问题
- 对 Lagrange \text{Lagrange} Lagrange 对偶的鞍点解释, 矮个子里挑高个子 和 高个子里挑矮个子
- 鞍点定义
- 对偶的操作
- 参考资料
对偶
对偶理论 p r i m a l d u a l primal \ dual primal dual
有约束问题的无约束形式
对于有约束优化问题
minimize
f
0
(
x
)
subject to
{
f
i
(
x
)
⩽
0
,
i
=
1
,
⋯
,
m
h
i
(
x
)
=
0
,
i
=
1
,
⋯
,
p
\begin{aligned} & \text{minimize} \quad f_0(x) \\ & \quad \\ & \text{subject to} \quad \left\{ \begin{array}{rcl} f_i(x) \leqslant 0, & & {i = 1, \cdots ,m}\\ h_i(x) =0, & & {i = 1, \cdots, p}\\ \end{array} \right. \end{aligned}
minimizef0(x)subject to{fi(x)⩽0,hi(x)=0,i=1,⋯,mi=1,⋯,p
定义域
D
=
⋂
i
=
0
m
dom
f
i
∩
⋂
i
=
1
p
dom
h
i
\mathcal{D} =\bigcap_{i=0}^{m} \operatorname{dom} f_{i} \cap \bigcap_{i=1}^{p} \operatorname{dom} h_{i}
D=i=0⋂mdomfi∩i=1⋂pdomhi
可转化为无约束优化问题,即
minimize
f
0
(
x
)
+
∑
i
=
1
m
I
−
(
f
i
(
x
)
)
+
∑
i
=
1
p
I
0
(
h
i
(
x
)
)
\begin{aligned} \text{minimize} \quad f_0(x) + \sum_{i=1}^{m} I_{-}(f_i(x)) + \sum_{i=1}^{p} I_{0}(h_i(x)) \end{aligned}
minimizef0(x)+i=1∑mI−(fi(x))+i=1∑pI0(hi(x))
其中
I
−
(
u
)
=
{
0
u
⩽
0
∞
u
≥
0
I
0
(
u
)
=
{
1
u
∈
{
0
}
0
u
∉
{
0
}
\begin{aligned} I_{-}(u) &= \left\{ \begin{array}{rcl} 0 \ & & {u \leqslant 0}\\ \infty & & {u \geq 0}\\ \end{array} \right. \\ \quad \\ I_{0}(u) &= \left\{ \begin{array}{rcl} 1 & & u \in \{ 0 \} \\ 0 & & u \not\in \{ 0 \}\\ \end{array} \right. \end{aligned}
I−(u)I0(u)={0 ∞u⩽0u≥0={10u∈{0}u∈{0}
I 0 ( u ) I_{0}(u) I0(u) 可看成是集合 { 0 } \{0\} {0} 的示性函数, I − ( u ) I_{-}(u) I−(u) 可看成是对原问题违反约束 f i ( x ) f_i(x) fi(x) 的一种惩罚,一旦原问题违反约束, 则 f i ( x ) f_i(x) fi(x) 的值会大于0, 则 I − ( u ) = ∞ I_{-}(u) = \infty I−(u)=∞, 整个无约束函数的最小值为 ∞ \infty ∞.
Lagrange \text{Lagrange} Lagrange 函数,自变量为 x , λ , v x,\lambda, v x,λ,v
Lagrange
\text{Lagrange}
Lagrange 函数的定义为:
L
(
x
,
λ
,
v
)
=
f
0
(
x
)
+
∑
i
=
1
m
λ
i
f
i
(
x
)
+
∑
i
=
1
p
v
i
h
i
(
x
)
,
x
∈
R
n
,
λ
∈
R
+
m
,
v
∈
R
p
\begin{aligned} L(x,\lambda,v) = f_0(x) + \sum_{i=1}^{m} \lambda_i f_i(x) + \sum_{i=1}^{p} v_i h_i(x), x \in R^n, \lambda \in R_+^m , v \in R^p \end{aligned}
L(x,λ,v)=f0(x)+i=1∑mλifi(x)+i=1∑pvihi(x),x∈Rn,λ∈R+m,v∈Rp
可以看出,有约束问题的无约束形式与
Lagrange
\text{Lagrange}
Lagrange 函数有些相似,我们可以认为,
Lagrange
\text{Lagrange}
Lagrange 函数用线性的惩罚函数(或者惩罚力度比较弱的惩罚函数)代替了函数
I
0
(
u
)
I_{0}(u)
I0(u),
I
−
(
u
)
I_{-}(u)
I−(u).
对于不等式约束,如果 f i ( x ) ≥ 0 f_i(x) \geq 0 fi(x)≥0, 那么惩罚力度开始增加, 如果 f i ( x ) < 0 f_i(x) < 0 fi(x)<0,不但没有惩罚,反而会有奖励,即 minimize L ( x , λ , v ) \text{minimize} \ L(x,\lambda,v) minimize L(x,λ,v) 会取到更小的值.
对于等式约束,待补充.
用线性函数 λ i u i \lambda_i u_i λiui 去逼近 I − ( u ) I_-(u) I−(u) 是远远不够的,但是线性函数至少可以看成是示性函数的一个下估计, 我们可以得到, 对偶函数是原问题最优函数值的一个下界.
Lagrange \text{Lagrange} Lagrange 对偶函数,自变量为 λ , v \lambda, v λ,v
Lagrange
\text{Lagrange}
Lagrange 对偶函数的定义为:
g
(
λ
,
v
)
=
inf
x
∈
D
L
(
x
,
λ
,
v
)
=
inf
x
∈
D
(
f
0
(
x
)
+
∑
i
=
1
m
λ
i
f
i
(
x
)
+
∑
i
=
1
p
v
i
h
i
(
x
)
)
,
λ
∈
R
+
m
,
v
∈
R
p
,
D
是
原
问
题
的
定
义
域
g(\lambda,v) = \underset{x \in \mathcal{D}}{\inf} \ L(x,\lambda,v) = \underset{x \in \mathcal{D}}{\inf} \ \left ( f_0(x) + \sum_{i=1}^{m} \lambda_i f_i(x) + \sum_{i=1}^{p} v_i h_i(x) \right ), \\ \lambda \in R_+^m , v \in R^p, \mathcal{D}是原问题的定义域
g(λ,v)=x∈Dinf L(x,λ,v)=x∈Dinf (f0(x)+i=1∑mλifi(x)+i=1∑pvihi(x)),λ∈R+m,v∈Rp,D是原问题的定义域
Lagrange
\text{Lagrange}
Lagrange 对偶函数相比于
Lagrange
\text{Lagrange}
Lagrange 函数,多出了对
x
(
x
∈
D
)
x(x \in \mathcal{D})
x(x∈D) 求最大下确界的过程,变量
x
x
x 被对偶函数所隐藏.
注意,这里 Lagrange \text{Lagrange} Lagrange 对偶函数和原问题的定义域是相同的,都为 D \mathcal{D} D, 这很关键.
证明 Lagrange \text{Lagrange} Lagrange 对偶函数构成了原问题最优值 p ∗ p^* p∗ 的下界
对任意的 λ ⪰ 0 \lambda \succeq 0 λ⪰0和 v v v, 下式成立:
g ( λ , v ) ⩽ p ∗ g(\lambda,v) \leqslant p^* g(λ,v)⩽p∗
证明:
设 x ~ \tilde{x} x~ 是原问题在定义域 D \mathcal{D} D 中的一个可行点(不一定是最优点), 正是由于 x ~ ∈ D \tilde{x} \in \mathcal{D} x~∈D,所以有 f i ( x ~ ) ⩽ 0 , h i ( x ~ ) = 0 , f_i(\tilde{x}) \leqslant 0,h_i(\tilde{x}) = 0, fi(x~)⩽0,hi(x~)=0, 根据假设 λ ⪰ 0 , \lambda \succeq 0, λ⪰0, 我们有
∑
i
=
1
m
λ
i
f
i
(
x
~
)
+
∑
i
=
1
p
v
i
h
i
(
x
~
)
=
∑
i
=
1
m
λ
i
f
i
(
x
~
)
+
∑
i
=
1
p
v
i
∗
0
=
∑
i
=
1
m
λ
i
f
i
(
x
~
)
⩽
0
\begin{aligned} & \sum_{i=1}^{m} \lambda_i f_i(\tilde{x}) + \sum_{i=1}^{p} v_i h_i(\tilde{x})\\ &= \sum_{i=1}^{m} \lambda_i f_i(\tilde{x}) + \sum_{i=1}^{p} v_i* 0\\ &= \sum_{i=1}^{m} \lambda_i f_i(\tilde{x}) \leqslant 0\\ \end{aligned}
i=1∑mλifi(x~)+i=1∑pvihi(x~)=i=1∑mλifi(x~)+i=1∑pvi∗0=i=1∑mλifi(x~)⩽0
则
L
(
x
~
,
λ
,
v
)
=
f
0
(
x
~
)
+
∑
i
=
1
m
λ
i
f
i
(
x
~
)
+
∑
i
=
1
p
v
i
h
i
(
x
~
)
=
f
0
(
x
~
)
+
∑
i
=
1
m
λ
i
f
i
(
x
~
)
⩽
f
0
(
x
~
)
\begin{aligned} L(\tilde{x}, \lambda,v) &=f_0(\tilde{x}) + \sum_{i=1}^{m} \lambda_i f_i(\tilde{x}) + \sum_{i=1}^{p} v_i h_i(\tilde{x}) \\ &=f_0(\tilde{x}) + \sum_{i=1}^{m} \lambda_i f_i(\tilde{x}) \leqslant f_0(\tilde{x}) \end{aligned}
L(x~,λ,v)=f0(x~)+i=1∑mλifi(x~)+i=1∑pvihi(x~)=f0(x~)+i=1∑mλifi(x~)⩽f0(x~)
式
inf
x
∈
D
L
(
x
,
λ
,
v
)
\underset{x \in \mathcal{D}}{\inf}\ L(x, \lambda,v)
x∈Dinf L(x,λ,v) 表明函数
L
(
x
,
λ
,
v
)
L(x, \lambda,v)
L(x,λ,v) 在集合
D
\mathcal{D}
D 中的下界, 因此有
g
(
λ
,
v
)
=
inf
x
∈
D
L
(
x
,
λ
,
v
)
⩽
L
(
x
~
,
λ
,
v
)
⩽
f
0
(
x
~
)
\begin{aligned} g(\lambda,v) = \underset{x \in \mathcal{D}}{\inf}\ L(x, \lambda,v) \leqslant L(\tilde{x}, \lambda,v) \leqslant f_0(\tilde{x}) \end{aligned}
g(λ,v)=x∈Dinf L(x,λ,v)⩽L(x~,λ,v)⩽f0(x~)
因此
Lagrange
\text{Lagrange}
Lagrange 对偶函数构成了原问题最优值
p
∗
p^*
p∗ 的下界.
证明 Lagrange \text{Lagrange} Lagrange 对偶函数为凹函数
无论原问题是否为凸问题, 无论
f
0
(
x
)
,
f
i
(
x
)
,
h
i
(
x
)
f_0(x),f_i(x),h_i(x)
f0(x),fi(x),hi(x) 是什么类型的函数. 但
Lagrange
\text{Lagrange}
Lagrange 对偶函数是一个凹函数, 证明思路如下:
集合
D
\mathcal{D}
D 无论是否连续,都可以看成是变量
x
x
x 的有限集合,当对偶函数
g
(
λ
,
v
)
g(\lambda,v)
g(λ,v) 中的
λ
,
v
\lambda,v
λ,v 为定值时,则对于集合
D
\mathcal{D}
D 中的每一个
x
i
x_i
xi 都有
f
i
(
x
i
)
f_i(x_i)
fi(xi) ,
h
i
(
x
i
)
h_i(x_i)
hi(xi) 与之对应,
令
λ
=
[
λ
1
,
λ
2
,
⋯
,
λ
m
]
v
=
[
v
1
,
v
2
,
⋯
,
v
p
]
F
(
x
)
=
[
f
1
(
x
)
,
f
2
(
x
)
,
⋯
,
f
m
(
x
)
]
H
(
x
)
=
[
h
1
(
x
)
,
h
2
(
x
)
,
⋯
,
h
p
(
x
)
]
D
=
{
x
0
,
x
1
,
⋯
,
x
n
}
,
当
集
合
D
为
连
续
值
集
合
时
,
n
→
∞
\begin{aligned} \lambda &= [\ \lambda_1, \lambda_2, \cdots, \lambda_m \ ] \\ v &= [\ v_1, v_2, \cdots, v_p \ ] \\ F(x) &= [\ f_1(x), f_2(x), \cdots, f_m(x) \ ] \\ H(x) &= [\ h_1(x), h_2(x), \cdots, h_p(x) \ ] \\ \mathcal{D} &= \{ x_0,x_1,\cdots , x_n \}, \quad 当集合\mathcal{D}为连续值集合时,n \rightarrow \infty \end{aligned}
λvF(x)H(x)D=[ λ1,λ2,⋯,λm ]=[ v1,v2,⋯,vp ]=[ f1(x),f2(x),⋯,fm(x) ]=[ h1(x),h2(x),⋯,hp(x) ]={x0,x1,⋯,xn},当集合D为连续值集合时,n→∞
且
g
(
λ
,
v
)
=
inf
x
∈
D
L
(
x
,
λ
,
v
)
=
inf
x
∈
D
(
f
0
(
x
)
+
∑
i
=
1
m
λ
i
f
i
(
x
)
+
∑
i
=
1
p
v
i
h
i
(
x
)
)
=
inf
x
∈
D
(
f
0
(
x
)
+
λ
F
(
x
)
T
+
v
H
(
x
)
T
)
\begin{aligned} g(\lambda,v) &= \underset{x \in \mathcal{D}}{\inf} \ L(x,\lambda,v) \\ &= \underset{x \in \mathcal{D}}{\inf} \ \left ( f_0(x) + \sum_{i=1}^{m} \lambda_i f_i(x) + \sum_{i=1}^{p} v_i h_i(x) \right ) \\ &= \underset{x \in \mathcal{D}}{\inf} \ \left ( f_0(x) + \lambda F(x)^T + v H(x)^T \right ) \\ \end{aligned}
g(λ,v)=x∈Dinf L(x,λ,v)=x∈Dinf (f0(x)+i=1∑mλifi(x)+i=1∑pvihi(x))=x∈Dinf (f0(x)+λF(x)T+vH(x)T)
则有
g
(
λ
,
v
)
=
inf
x
∈
D
L
(
x
,
λ
,
v
)
=
inf
[
(
f
0
(
x
0
)
+
λ
F
(
x
0
)
T
+
v
H
(
x
0
)
T
)
,
(
f
0
(
x
1
)
+
λ
F
(
x
1
)
T
+
v
H
(
x
1
)
T
)
,
⋯
,
(
f
0
(
x
n
)
+
λ
F
(
x
n
)
T
+
v
H
(
x
n
)
T
)
]
\begin{aligned} g(\lambda,v) &= \underset{x \in \mathcal{D}}{\inf} \ L(x,\lambda,v) \\ &= \inf \left [ \left ( f_0(x_0) + \lambda F(x_0)^T + v H(x_0)^T \right ), \left ( f_0(x_1) + \lambda F(x_1)^T + v H(x_1)^T \right ), \cdots, \left ( f_0(x_n) + \lambda F(x_n)^T + v H(x_n)^T \right ) \right ] \\ \end{aligned}
g(λ,v)=x∈Dinf L(x,λ,v)=inf[(f0(x0)+λF(x0)T+vH(x0)T),(f0(x1)+λF(x1)T+vH(x1)T),⋯,(f0(xn)+λF(xn)T+vH(xn)T)]
为了方便书写和观察,令
A
i
=
f
0
(
x
i
)
B
i
=
F
(
x
i
)
C
i
=
H
(
x
i
)
\begin{aligned} A_i &= f_0(x_i) \\ B_i &= F(x_i) \\ C_i &= H(x_i)\\ \end{aligned}
AiBiCi=f0(xi)=F(xi)=H(xi)
则
g
(
λ
,
v
)
=
inf
x
∈
D
L
(
x
,
λ
,
v
)
=
inf
[
(
f
0
(
x
0
)
+
λ
F
(
x
0
)
T
+
v
H
(
x
0
)
T
)
,
(
f
0
(
x
1
)
+
λ
F
(
x
1
)
T
+
v
H
(
x
1
)
T
)
,
⋯
,
(
f
0
(
x
n
)
+
λ
F
(
x
n
)
T
+
v
H
(
x
n
)
T
)
]
=
inf
[
(
A
0
+
λ
B
0
T
+
v
C
0
T
)
,
(
A
1
+
λ
B
1
T
+
v
C
1
T
)
,
⋯
,
(
A
n
+
λ
B
n
T
+
v
C
n
T
)
]
\begin{aligned} g(\lambda,v) &= \underset{x \in \mathcal{D}}{\inf} \ L(x,\lambda,v) \\ &= \inf \left [ \left ( f_0(x_0) + \lambda F(x_0)^T + v H(x_0)^T \right ), \left ( f_0(x_1) + \lambda F(x_1)^T + v H(x_1)^T \right ), \cdots, \left ( f_0(x_n) + \lambda F(x_n)^T + v H(x_n)^T \right ) \right ] \\ &= \inf \left [ \left ( A_0 + \lambda B_0^T + v C_0^T \right ), \left ( A_1 + \lambda B_1^T + v C_1^T \right ), \cdots, \left ( A_n + \lambda B_n^T + v C_n^T \right ) \right ] \\ \end{aligned}
g(λ,v)=x∈Dinf L(x,λ,v)=inf[(f0(x0)+λF(x0)T+vH(x0)T),(f0(x1)+λF(x1)T+vH(x1)T),⋯,(f0(xn)+λF(xn)T+vH(xn)T)]=inf[(A0+λB0T+vC0T),(A1+λB1T+vC1T),⋯,(An+λBnT+vCnT)]
易知
A
i
+
λ
B
i
T
+
v
C
i
T
A_i + \lambda B_i^T + v C_i^T
Ai+λBiT+vCiT 是关于变量
λ
,
v
\lambda,v
λ,v 的仿射函数
因为 凹函数的逐点最大下确界仍是凹函数(仿射函数即是凹函数,也是凸函数), 因此
Lagrange
\text{Lagrange}
Lagrange 对偶函数仍是凹函数.
Lagrange \text{Lagrange} Lagrange 对偶问题
Lagrange
\text{Lagrange}
Lagrange 对偶问题的形式如下所示:
maximize
g
(
λ
,
v
)
subject to
λ
⪰
0
\begin{aligned} & \text{maximize} \quad g(\lambda,v) \\ & \quad \\ & \text{subject to} \quad \lambda \succeq 0 \end{aligned}
maximizeg(λ,v)subject toλ⪰0
Lagrange
\text{Lagrange}
Lagrange 对偶问题 可以用来寻找
Lagrange
\text{Lagrange}
Lagrange 对偶函数 的最大值.由前面的内容可知,
Lagrange
\text{Lagrange}
Lagrange 对偶函数 可以在
λ
,
v
\lambda, v
λ,v 确定的情况下,对
x
(
x
∈
D
)
x \ (x \in \mathcal{D})
x (x∈D) 求
Lagrange
\text{Lagrange}
Lagrange 函数 的最大下确界(最小值),我们将
Lagrange
\text{Lagrange}
Lagrange 对偶问题写成如下形式:
max
λ
⪰
0
inf
x
∈
D
L
(
x
,
λ
,
v
)
\begin{aligned} \underset{\lambda \succeq 0}{\text{max}} \underset{x \in \mathcal{D}}{\inf} \ L(x,\lambda,v) \end{aligned}
λ⪰0maxx∈Dinf L(x,λ,v)
或者如下形式(当
max
\text{max}
max 可以取到时)
sup
λ
⪰
0
inf
x
∈
D
L
(
x
,
λ
,
v
)
\begin{aligned} \underset{\lambda \succeq 0}{\sup} \underset{x \in \mathcal{D}}{\inf} \ L(x,\lambda,v) \end{aligned}
λ⪰0supx∈Dinf L(x,λ,v)
对 Lagrange \text{Lagrange} Lagrange 对偶的鞍点解释, 矮个子里挑高个子 和 高个子里挑矮个子
为了简化讨论,假设原问题没有等式约束
minimize
f
0
(
x
)
subject to
f
i
(
x
)
⩽
0
,
i
=
1
,
⋯
,
m
\begin{aligned} & \text{minimize} \quad f_0(x) \\ & \quad \\ & \text{subject to} \quad f_i(x) \leqslant 0, & & {i = 1, \cdots ,m}\\ \end{aligned}
minimizef0(x)subject tofi(x)⩽0,i=1,⋯,m
原问题的最优值
p
∗
p^*
p∗ 与下面这个问题的最优值等价:
构造原问题的
Lagrange
\text{Lagrange}
Lagrange 函数,即:
L
(
x
,
λ
)
=
f
0
(
x
)
+
∑
i
=
1
m
λ
i
f
i
(
x
)
\begin{aligned} L(x,\lambda) = f_0(x) + \sum_{i=1}^{m} \lambda_i f_i(x) \end{aligned}
L(x,λ)=f0(x)+i=1∑mλifi(x)
求
Lagrange
\text{Lagrange}
Lagrange 函数在
x
x
x确定的情况下, 对
λ
⪰
0
\lambda \succeq 0
λ⪰0 求最小上确界:
sup
λ
⪰
0
L
(
x
,
λ
)
=
sup
λ
⪰
0
(
f
0
(
x
)
+
∑
i
=
1
m
λ
i
f
i
(
x
)
)
=
{
f
0
(
x
)
f
i
(
x
)
⩽
0
,
i
=
1
,
⋯
,
m
∞
otherwise
\begin{aligned} \underset{\lambda \succeq 0}{\sup} L(x,\lambda) &= \underset{\lambda \succeq 0}{\sup} \Big ( f_0(x) + \sum_{i=1}^{m} \lambda_i f_i(x) \Big ) \\ &= \left\{ \begin{array}{rcl} f_0(x) & & {f_i(x) \leqslant 0, i = 1, \cdots ,m}\\ \infty \quad & & {\text{otherwise}}\\ \end{array} \right. \end{aligned}
λ⪰0supL(x,λ)=λ⪰0sup(f0(x)+i=1∑mλifi(x))={f0(x)∞fi(x)⩽0,i=1,⋯,motherwise
当
f
i
(
x
)
>
0
f_i(x) > 0
fi(x)>0时,只需要让相应的
λ
i
=
+
∞
\lambda_i= + \infty
λi=+∞ 其余
λ
j
=
0
(
i
≠
j
)
\lambda_j= 0 \ (i \neq j)
λj=0 (i=j),则
Lagrange
\text{Lagrange}
Lagrange 函数对
λ
⪰
0
\lambda \succeq 0
λ⪰0 求最小上确界的结果为
+
∞
+\infty
+∞, 此时无论
f
0
(
x
)
f_0(x)
f0(x) 的值是多少都无意义, 在这里不考虑
f
0
(
x
i
)
=
±
∞
f_0(x_i)= \pm \infty
f0(xi)=±∞. 这种情况下, 我们将无法取得一个有效值, 因此讨论这种情况的最小上确界无意义.
求得
sup
λ
⪰
0
L
(
x
,
λ
)
\underset{\lambda \succeq 0}{\sup} L(x,\lambda)
λ⪰0supL(x,λ) 的结果之后, 再求在
x
∈
D
x \in \mathcal{D}
x∈D 的情况下对
sup
λ
⪰
0
L
(
x
,
λ
)
\underset{\lambda \succeq 0}{\sup} L(x,\lambda)
λ⪰0supL(x,λ) 求最大下确界, 即
inf
x
∈
D
sup
λ
⪰
0
L
(
x
,
λ
)
\underset{x \in \mathcal{D}}{\inf} \ \underset{\lambda \succeq 0}{\sup} L(x,\lambda)
x∈Dinf λ⪰0supL(x,λ), 这等价于求解原问题. 令原问题的最优值为
p
∗
p^*
p∗ :
p
∗
=
inf
x
∈
D
sup
λ
⪰
0
L
(
x
,
λ
)
=
inf
x
∈
D
sup
λ
⪰
0
(
f
0
(
x
)
+
∑
i
=
1
m
λ
i
f
i
(
x
)
)
=
inf
x
∈
D
{
f
0
(
x
)
f
i
(
x
)
⩽
0
,
i
=
1
,
⋯
,
m
∞
otherwise
=
inf
x
∈
D
f
0
(
x
)
subject to
f
i
(
x
)
⩽
0
,
i
=
1
,
⋯
,
m
=
min
x
∈
D
f
0
(
x
)
subject to
f
i
(
x
)
⩽
0
,
i
=
1
,
⋯
,
m
(
如
果
最
小
值
可
以
取
到
,
则
sup
与
min
等
价
)
\begin{aligned} p^* &= \underset{x \in \mathcal{D}}{\inf} \ \underset{\lambda \succeq 0}{\sup} L(x,\lambda) \\ &=\underset{x \in \mathcal{D}}{\inf} \ \underset{\lambda \succeq 0}{\sup} \Big ( f_0(x) + \sum_{i=1}^{m} \lambda_i f_i(x) \Big )\\ &=\underset{x \in \mathcal{D}}{\inf} \ \left\{ \begin{array}{rcl} f_0(x) & & {f_i(x) \leqslant 0, i = 1, \cdots ,m}\\ \infty \quad & & {\text{otherwise}}\\ \end{array} \right.\\ &=\underset{x \in \mathcal{D}}{\inf} \ f_0(x) \quad \text{subject to} \quad f_i(x) \leqslant 0, i = 1, \cdots ,m \\ &=\underset{x \in \mathcal{D}}{\text{min}} \ f_0(x) \quad \text{subject to} \quad f_i(x) \leqslant 0, i = 1, \cdots ,m \\ & (如果最小值可以取到,则 \sup 与\text{min}等价 ) \end{aligned}
p∗=x∈Dinf λ⪰0supL(x,λ)=x∈Dinf λ⪰0sup(f0(x)+i=1∑mλifi(x))=x∈Dinf {f0(x)∞fi(x)⩽0,i=1,⋯,motherwise=x∈Dinf f0(x)subject tofi(x)⩽0,i=1,⋯,m=x∈Dmin f0(x)subject tofi(x)⩽0,i=1,⋯,m(如果最小值可以取到,则sup与min等价)
设对偶问题的最优值为
d
∗
d^*
d∗, 根据对偶问题的定义:
d
∗
=
sup
λ
⪰
0
g
(
λ
,
v
)
=
sup
λ
⪰
0
inf
x
∈
D
L
(
x
,
λ
)
=
sup
λ
⪰
0
inf
x
∈
D
(
f
0
(
x
)
+
∑
i
=
1
m
λ
i
f
i
(
x
)
)
\begin{aligned} d^* &= \underset{\lambda \succeq 0}{\sup} \ g(\lambda,v) \\ &= \underset{\lambda \succeq 0}{\sup} \ \underset{x \in \mathcal{D}}{\inf} \ L(x,\lambda) \\ &= \underset{\lambda \succeq 0}{\sup} \ \underset{x \in \mathcal{D}}{\inf} \ \Big ( f_0(x) + \sum_{i=1}^{m} \lambda_i f_i(x) \Big )\\ \end{aligned}
d∗=λ⪰0sup g(λ,v)=λ⪰0sup x∈Dinf L(x,λ)=λ⪰0sup x∈Dinf (f0(x)+i=1∑mλifi(x))
因此弱对偶性可以表示为下述不等式
对
偶
问
题
的
最
优
值
d
∗
⩽
原
问
题
的
最
优
值
p
∗
d
∗
⩽
p
∗
sup
λ
⪰
0
inf
x
∈
D
L
(
x
,
λ
)
⩽
inf
x
∈
D
sup
λ
⪰
0
L
(
x
,
λ
)
\begin{aligned} 对偶问题的最优值 \ d^* & \leqslant 原问题的最优值 \ p^* \\ d^* & \leqslant p^* \\ \underset{\lambda \succeq 0}{\sup} \ \underset{x \in \mathcal{D}}{\inf} \ L(x,\lambda) & \leqslant \underset{x \in \mathcal{D}}{\inf} \ \underset{\lambda \succeq 0}{\sup} \ L(x,\lambda) \end{aligned}
对偶问题的最优值 d∗d∗λ⪰0sup x∈Dinf L(x,λ)⩽原问题的最优值 p∗⩽p∗⩽x∈Dinf λ⪰0sup L(x,λ)
而强对偶性可以表示为下述等式
对
偶
问
题
的
最
优
值
d
∗
=
原
问
题
的
最
优
值
p
∗
d
∗
=
p
∗
sup
λ
⪰
0
inf
x
∈
D
L
(
x
,
λ
)
=
inf
x
∈
D
sup
λ
⪰
0
L
(
x
,
λ
)
\begin{aligned} 对偶问题的最优值 \ d^* & = 原问题的最优值 \ p^* \\ d^* & = p^* \\ \underset{\lambda \succeq 0}{\sup} \ \underset{x \in \mathcal{D}}{\inf} \ L(x,\lambda) & = \underset{x \in \mathcal{D}}{\inf} \ \underset{\lambda \succeq 0}{\sup} \ L(x,\lambda) \end{aligned}
对偶问题的最优值 d∗d∗λ⪰0sup x∈Dinf L(x,λ)=原问题的最优值 p∗=p∗=x∈Dinf λ⪰0sup L(x,λ)
当
p
∗
=
d
∗
p^* = d^*
p∗=d∗ 时,强对偶成立, 强对偶性意味着对
x
x
x 求极小和对
λ
⪰
0
\lambda \succeq 0
λ⪰0 求极大可以互换而不影响结果.
鞍点定义
我们称一对
w
~
∈
W
\tilde{w} \in W
w~∈W 是函数
f
f
f (以及
W
W
W 和
Z
Z
Z ) 的鞍点,如果对任意
w
∈
W
w \in W
w∈W 和
z
∈
Z
z \in Z
z∈Z 下式成立
f
(
w
~
,
z
)
⩽
f
(
w
~
,
z
~
)
⩽
f
(
w
,
z
~
)
.
f(\tilde{w}, z) \leqslant f(\tilde{w}, \tilde{z}) \leqslant f(w, \tilde{z}).
f(w~,z)⩽f(w~,z~)⩽f(w,z~).
换言之,
g
1
(
w
)
=
f
(
w
,
z
~
)
g_1(w) = f(w, \tilde{z})
g1(w)=f(w,z~) 在
w
~
\tilde{w}
w~ 处取得最小值(关于变量
w
∈
W
w \in W
w∈W ),
g
2
(
z
)
=
f
(
w
~
,
z
)
g_2(z) = f(\tilde{w}, z)
g2(z)=f(w~,z) 在
z
~
\tilde{z}
z~ 处取得最大值(关于变量
z
∈
W
z \in W
z∈W ):
f
(
w
~
,
z
~
)
=
inf
w
∈
W
f
(
w
,
z
~
)
,
f
(
w
~
,
z
~
)
=
sup
z
∈
Z
f
(
w
~
,
z
)
f(\tilde{w}, \tilde{z})=\inf _{w \in W} f(w, \tilde{z}), \quad f(\tilde{w}, \tilde{z})=\sup _{z \in Z} f(\tilde{w}, z)
f(w~,z~)=w∈Winff(w,z~),f(w~,z~)=z∈Zsupf(w~,z)
上式意味着强极大极小性质成立,且共同值为
f
(
w
~
,
z
~
)
f(\tilde{w}, \tilde{z})
f(w~,z~).
回到我们关于
Lagrange
\text{Lagrange}
Lagrange 对偶的讨论,如果
x
∗
x^*
x∗ 和
λ
∗
\lambda^*
λ∗ 分别是原问题和对偶问题的最优点,且强对偶性成立,则它们是
Lagrange
\text{Lagrange}
Lagrange 函数的一个鞍点.
反过来同样成立: 如果 ( x , λ x,\lambda x,λ) 是 Lagrange \text{Lagrange} Lagrange 函数的一个鞍点,那么 x x x 是原问题的最优解, λ \lambda λ 是对偶问题的最优解,且最优对偶间隙为零.
对偶的操作
在本文中, 我们可以看到对偶操作消去了一些变量, 用集合中显性的值来取代某一变量, 另外, 构造了许多的仿射函数, 最后,进行取最大下界或最小上界操作. 我们应该学会这种变换思想