转载请注明出处:http://mp.blog.csdn.net/mdeditor
一、问题描述
首先以不严谨的方式给出标准形式的优化问题(具体请参考《凸优化》——Boyd,第五章),:min f 0 ( x ) \min f_0(x) minf0(x)
s . t . f i ( x ) ≤ 0 , i = 1 , 2 , ⋅ ⋅ ⋅ , m s.t.\quad f_i(x)\le0,\quad i = 1, 2, \cdot\cdot\cdot, m s.t.fi(x)≤0,i=1,2,⋅⋅⋅,m
h i ( x ) = 0 , i = 1 , 2 , ⋅ ⋅ ⋅ , p \qquad h_i(x)=0,\quad i = 1, 2, \cdot\cdot\cdot, p hi(x)=0,i=1,2,⋅⋅⋅,p
然后给出拉格朗日函数:
L
(
x
,
λ
,
ν
)
=
f
0
(
x
)
+
∑
i
=
1
m
λ
(
i
)
f
i
(
x
)
+
∑
i
=
1
p
ν
(
i
)
h
i
(
x
)
(
公
式
1
)
L(x,\lambda,\nu)=f_0(x)+\sum_{i=1}^{m}\lambda_{(i)}f_i(x)+\sum_{i=1}^{p}\nu_{(i)}h_i(x) \qquad (公式1)
L(x,λ,ν)=f0(x)+i=1∑mλ(i)fi(x)+i=1∑pν(i)hi(x)(公式1)
最后给出对偶函数:
g
(
λ
,
ν
)
=
inf
x
∈
D
L
(
x
,
λ
,
ν
)
=
inf
x
∈
D
(
f
0
(
x
)
+
∑
i
=
1
m
λ
(
i
)
f
i
(
x
)
+
∑
i
=
1
p
ν
(
i
)
h
i
(
x
)
)
(
公
式
2
)
g(\lambda,\nu)=\inf\limits_{x\in D}L(x,\lambda,\nu)=\inf\limits_{x\in D}(f_0(x)+\sum_{i=1}^{m}\lambda_{(i)}f_i(x)+\sum_{i=1}^{p}\nu_{(i)}h_i(x)) \qquad (公式2)
g(λ,ν)=x∈DinfL(x,λ,ν)=x∈Dinf(f0(x)+i=1∑mλ(i)fi(x)+i=1∑pν(i)hi(x))(公式2)
我们要证明的是下面的命题:
命题:拉格朗日对偶函数一定是凹函数,且其凹性与最优化函数和约束函数无关。
说明:上述两个公式中, λ ( i ) \lambda_{(i)} λ(i)表示的是m维向量 λ \lambda λ的第i个分量,而后面的 λ i \lambda_{i} λi表示的是 λ \lambda λ的一个具体值,是一个向量。
二、证明
证明: 要证对偶函数一定是凹函数,根据凹函数的定义,就是要证g ( θ λ 1 + ( 1 − θ ) λ 2 , θ ν 1 + ( 1 − θ ) ν 2 ) ≥ θ g ( λ 1 , ν 1 ) + ( 1 − θ ) g ( λ 2 , ν 2 ) , θ ∈ R ( 公 式 3 ) g(\theta\lambda_1+(1-\theta)\lambda_2,\theta\nu_1+(1-\theta)\nu_2)\ge\theta g(\lambda_1,\nu_1)+(1-\theta)g(\lambda_2,\nu_2),\quad\theta\in R\quad(公式3) g(θλ1+(1−θ)λ2,θν1+(1−θ)ν2)≥θg(λ1,ν1)+(1−θ)g(λ2,ν2),θ∈R(公式3)
根据对偶函数的定义可知,对偶函数是拉格朗日函数在把
λ
\lambda
λ和
ν
\nu
ν当做常量,
x
x
x变化时的最小值,如果拉格朗日函数没有最小值(可以认为最小值为
−
∞
-\infty
−∞),则对偶函数取值为
−
∞
-\infty
−∞,所以,可以把对偶函数按照下面的方式表达:
g
(
λ
,
ν
)
=
m
i
n
{
L
(
x
1
,
λ
,
ν
)
,
L
(
x
2
,
λ
,
ν
)
,
⋅
⋅
⋅
,
L
(
x
n
,
λ
,
ν
)
}
,
n
=
+
∞
(
公
式
4
)
g(\lambda,\nu)=min\{L(x_1,\lambda,\nu),L(x_2,\lambda,\nu),\cdot\cdot\cdot,L(x_n,\lambda,\nu)\},\quad n=+\infty\qquad(公式4)
g(λ,ν)=min{L(x1,λ,ν),L(x2,λ,ν),⋅⋅⋅,L(xn,λ,ν)},n=+∞(公式4)
即无穷多个x变化时,拉格朗日函数的最小值。
另外,由于把
λ
\lambda
λ和
ν
\nu
ν分开来写,式子太长了,为了简便,记
γ
=
(
λ
,
ν
)
\gamma = (\lambda, \nu)
γ=(λ,ν),接下来证明(公式3):
g ( θ γ 1 + ( 1 − θ ) γ 2 ) = m i n { L ( x 1 , θ γ 1 + ( 1 − θ ) γ 2 ) , L ( x 2 , θ γ 1 + ( 1 − θ ) γ 2 ) , ⋅ ⋅ ⋅ , L ( x n , θ γ 1 + ( 1 − θ ) γ 2 ) } ( 公 式 5 ) g(\theta\gamma_1+(1-\theta)\gamma_2)=min\{L(x_1,\theta\gamma_1+(1-\theta)\gamma_2),L(x_2,\theta\gamma_1+(1-\theta)\gamma_2),\cdot \cdot\cdot,L(x_n,\theta\gamma_1+(1-\theta)\gamma_2)\}\qquad(公式5) g(θγ1+(1−θ)γ2)=min{L(x1,θγ1+(1−θ)γ2),L(x2,θγ1+(1−θ)γ2),⋅⋅⋅,L(xn,θγ1+(1−θ)γ2)}(公式5)
≥ m i n { θ L ( x 1 , γ 1 ) + ( 1 − θ ) L ( x 1 , γ 2 ) , θ L ( x 2 , γ 1 ) + ( 1 − θ ) L ( x 2 , γ 2 ) , ⋅ ⋅ ⋅ , θ L ( x n , γ 1 ) + ( 1 − θ ) L ( x n , γ 2 ) } ( 公 式 6 ) \ge min\{\theta L(x_1,\gamma_1)+(1-\theta)L(x_1,\gamma_2),\theta L(x_2,\gamma_1)+(1-\theta)L(x_2,\gamma_2),\cdot\cdot\cdot,\theta L(x_n,\gamma_1)+(1-\theta)L(x_n,\gamma_2)\}\quad (公式6) ≥min{θL(x1,γ1)+(1−θ)L(x1,γ2),θL(x2,γ1)+(1−θ)L(x2,γ2),⋅⋅⋅,θL(xn,γ1)+(1−θ)L(xn,γ2)}(公式6)
≥ θ m i n { L ( x 1 , γ 1 ) , L ( x 2 , γ 1 ) , ⋅ ⋅ ⋅ , L ( x n , γ 1 ) } + ( 1 − θ ) m i n { L ( x 1 , γ 2 ) , L ( x 2 , γ 2 ) , ⋅ ⋅ ⋅ , L ( x n , γ 2 ) } ( 公 式 7 ) \ge\theta min\{L(x_1,\gamma_1),L(x_2,\gamma_1),\cdot\cdot\cdot,L(x_n,\gamma_1)\}+(1-\theta)min\{L(x_1,\gamma_2),L(x_2,\gamma_2),\cdot\cdot\cdot,L(x_n,\gamma_2)\}\quad (公式7) ≥θmin{L(x1,γ1),L(x2,γ1),⋅⋅⋅,L(xn,γ1)}+(1−θ)min{L(x1,γ2),L(x2,γ2),⋅⋅⋅,L(xn,γ2)}(公式7)
= θ g ( γ 1 ) + ( 1 − θ ) g ( γ 2 ) ( 公 式 8 ) =\theta g(\gamma_1)+(1-\theta)g(\gamma_2)\quad (公式8) =θg(γ1)+(1−θ)g(γ2)(公式8)
至此,(公式3)得证,所以原命题得证。
证毕.
三、解释证明过程
接下来,解释一下这个证明:(公式5)到(公式6)是因为
L
(
x
i
,
γ
)
L(x_i, \gamma)
L(xi,γ)中的
x
x
x的值已固定,所以
f
i
(
x
)
,
i
=
0
,
1
,
2
,
⋅
⋅
⋅
,
m
f_i(x), i = 0, 1, 2,\cdot\cdot\cdot, m
fi(x),i=0,1,2,⋅⋅⋅,m 和
h
i
(
x
)
,
i
=
0
,
1
,
2
,
⋅
⋅
⋅
,
p
h_i(x), i = 0, 1, 2,\cdot\cdot\cdot, p
hi(x),i=0,1,2,⋅⋅⋅,p都应该看做常数,所以此时的
L
(
x
i
,
γ
)
L(x_i, \gamma)
L(xi,γ)是
γ
\gamma
γ的仿射函数,而仿射函数是既凸且凹的,对(公式5)右边中的每一个拉格朗日函数都运用其凹性,就可以得到(公式6).
而从(公式6)到(公式7)运用的是一个简单的数学原理:
设有两个实数集合 a a a 和 b b b:
a = { a 1 , a 2 , ⋅ ⋅ ⋅ , a n } b = { b 1 , b 2 , ⋅ ⋅ ⋅ , b n } a=\{a_1,a_2,\cdot\cdot\cdot,a_n\}\\b=\{b_1,b_2,\cdot\cdot\cdot,b_n\} a={a1,a2,⋅⋅⋅,an}b={b1,b2,⋅⋅⋅,bn}
则对于所有的 i i i, j j j 有:
m i n { a i + b j } ≥ m i n { a } + m i n { b } , i , j ∈ N + min\{a_i+b_j\}\ge min\{a\}+min\{b\},\quad i,j\in N^+ min{ai+bj}≥min{a}+min{b},i,j∈N+
(公式7)到(公式8)由公式4可得。
最后通过图像来解释:
上图中,每条直线表示的是一个
L
(
x
i
,
γ
)
L(x_i, \gamma)
L(xi,γ)。假想有一条平行于上图中
y
y
y轴方向的直线,这条直线沿着
x
x
x轴方向平移,这条直线与上图中所有的
L
(
x
i
,
γ
)
L(x_i, \gamma)
L(xi,γ)相交,这些交点的最小值(
y
y
y轴方向的值,因为
y
y
y轴方向对应于
L
(
x
i
,
γ
)
L(x_i, \gamma)
L(xi,γ)的值,
x
x
x轴方向对应于每一个
x
i
x_i
xi)就是
g
(
γ
)
g(\gamma)
g(γ),也就是(公式4)要表达的意思。
由于这条直线每到一处,就对应于一个
x
i
x_i
xi,从而逐点逐点地获得
g
(
γ
)
g(\gamma)
g(γ),所以就称对偶函数是一族关于
γ
\gamma
γ的仿射函数的逐点下确界。