文章目录
Lagrange对偶函数
Lagrange函数
对于标准形式的优化问题:
m
i
n
i
m
i
z
e
f
0
(
x
)
s
u
b
j
e
c
t
t
o
f
i
(
x
)
≤
0
,
i
=
1
,
.
.
.
,
m
h
i
(
x
)
=
0
,
i
=
1
,
.
.
.
,
p
\begin{align*} minimize &&& f_0(x)\\ subject\ to &&&f_i(x)\le0,i=1,...,m\\ &&&h_i(x)=0,i=1,...,p \end{align*}
minimizesubject tof0(x)fi(x)≤0,i=1,...,mhi(x)=0,i=1,...,p
D
=
⋂
i
=
1
m
d
o
m
f
i
∩
⋂
i
=
1
p
d
o
m
h
i
D=\bigcap_{i=1}^m dom\ f_i\ \cap\ \bigcap_{i=1}^p\ dom\ h_i
D=⋂i=1mdom fi ∩ ⋂i=1p dom hi,注意
D
D
D不是可行域,而是各个函数的定义域的交集。
定义该问题的Langrange函数为:
L ( x , λ , ν ) = f 0 ( x ) + ∑ i = 1 m λ i f i ( x ) + ∑ i = 1 p ν i h i ( x ) , d o m L = D × R m × R p L(x,\lambda,\nu)=f_0(x)+\sum_{i=1}^m \lambda_if_i(x)+\sum_{i=1}^p\nu_ih_i(x),dom\ L=D\times R^m\times R^p L(x,λ,ν)=f0(x)+∑i=1mλifi(x)+∑i=1pνihi(x),dom L=D×Rm×Rp。
λ \lambda λ和 ν \nu ν称为对偶变量或原问题的Lagrange乘子向量。
Lagrange对偶函数
g ( λ , ν ) = i n f x ∈ D ( f 0 ( x ) + ∑ i = 1 m λ i f i ( x ) + ∑ i = 1 p ν i h i ( x ) ) g(\lambda,\nu)=\bf{\underset{x\in D}{inf}}(f_0(x)+\sum_{i=1}^m \lambda_if_i(x)+\sum_{i=1}^p\nu_ih_i(x)) g(λ,ν)=x∈Dinf(f0(x)+∑i=1mλifi(x)+∑i=1pνihi(x))
性质1: g ( λ , ν ) g(\lambda,\nu) g(λ,ν)是仿射函数的逐点下确界,因此无论原问题是不是凸问题,对偶函数一定是凹函数。进一步地,对偶问题一定是凸优化问题。
性质2:设原问题的最优值为 p ∗ p^* p∗,即 p ∗ = i n f x ∈ D f 0 ( x ) p^*=\bf{\underset{x\in D}{inf}}f_0(x) p∗=x∈Dinff0(x),则对于任意 λ ⪰ 0 \lambda\succeq0 λ⪰0和 ν \nu ν,有 g ( λ , ν ) ≤ p ∗ g(\lambda,\nu)\le p^* g(λ,ν)≤p∗。
对偶问题
m a x i m i z e g ( λ , ν ) s u b j e c t t o λ ⪰ 0 \begin{align*} maximize&&&g(\lambda,\nu)\\ subject\ to&&& \lambda\succeq0 \end{align*} maximizesubject tog(λ,ν)λ⪰0
由于对偶函数一定是凹函数,因此对偶问题一定是凸优化问题。
对偶函数和共轭函数
共轭函数(conjugate)
定义
设函数 f : R n → R f:R^n\rightarrow R f:Rn→R,则其共轭函数 f ∗ : R n → R f^*:R^n\rightarrow R f∗:Rn→R为 f ∗ ( y ) = s u p x ∈ d o m f ( y T x − f ( x ) ) f^*(y)=\underset{x\in dom\ f}{sup}(y^Tx-f(x)) f∗(y)=x∈dom fsup(yTx−f(x))。 y T x − f ( x ) y^Tx-f(x) yTx−f(x)在 d o m f dom\ f dom f有上界的所有 y ∈ R n y\in R^n y∈Rn构成了 f ∗ f^* f∗的定义域。
性质1:不论 f f f是否为凸,其共轭函数 f ∗ f^* f∗一定是凸函数。因为它是关于 y y y的仿射函数的逐点上确界。
性质2:如果 f f f是凸函数且 f f f是闭的( f f f是闭的即 e p i f epi\ f epi f是闭集),则 f ∗ ∗ = f f^{**}=f f∗∗=f
对偶范数
∣ ∣ x ∣ ∣ ||x|| ∣∣x∣∣的对偶范数为 ∣ ∣ x ∣ ∣ ∗ = s u p ∣ ∣ y ∣ ∣ ≤ 1 y T x ||x||_*=\underset{||y||\le1}{sup}y^Tx ∣∣x∣∣∗=∣∣y∣∣≤1supyTx
范数的共轭函数
f ∗ ( y ) = { 0 , ∣ ∣ y ∣ ∣ ∗ ≤ 1 + ∞ , o t h e r w i s e \begin{align*} f^*(y)= \begin{cases} 0,&||y||_*\le1 \\ +\infin,&otherwise \end{cases} \end{align*} f∗(y)={0,+∞,∣∣y∣∣∗≤1otherwise
例1
考虑一个具有线性不等式以及等式约束的优化问题:
m
i
n
i
m
i
z
e
f
0
(
x
)
s
u
b
j
e
c
t
t
o
A
x
⪯
b
C
x
=
d
\begin{align*} minimize&&&f_0(x)\\ subject\ to&&&Ax\preceq b\\ &&&Cx=d \end{align*}
minimizesubject tof0(x)Ax⪯bCx=d
其对偶函数为:
g
(
λ
,
ν
)
=
−
b
T
λ
−
d
T
ν
−
f
0
∗
(
−
A
T
λ
−
C
T
ν
)
d
o
m
g
=
{
(
λ
,
ν
)
∣
−
A
T
λ
−
C
T
ν
∈
d
o
m
f
0
∗
}
\begin{align*} g(\lambda,\nu)=-b^T\lambda-d^T\nu-f^*_0(-A^T\lambda-C^T\nu)\\dom\ g=\{(\lambda,\nu)|-A^T\lambda-C^T\nu\in dom\ f_0^*\} \end{align*}
g(λ,ν)=−bTλ−dTν−f0∗(−ATλ−CTν)dom g={(λ,ν)∣−ATλ−CTν∈dom f0∗}
例2
考虑问题:
m
i
n
i
m
i
z
e
∣
∣
x
∣
∣
s
u
b
j
e
c
t
t
o
A
x
=
b
\begin{align*} minimize&&&||x||\\ subject \ to&&&Ax=b \end{align*}
minimizesubject to∣∣x∣∣Ax=b
其对偶问题为:
g
(
ν
)
=
{
−
b
T
ν
,
∥
A
T
v
∥
∗
≤
1
−
∞
,
o
t
h
e
r
w
i
s
e
\begin{align*} g(\nu)= \begin{cases} -b^T\nu,&\parallel A^T v\parallel_*\le 1\\ -\infin,&otherwise \end{cases} \end{align*}
g(ν)={−bTν,−∞,∥ATv∥∗≤1otherwise
强对偶性和Slater条件
强对偶性
原问题和对偶问题的最优值相同,即对偶间隙为零。
相对内部
r e l i n t S = { x ∈ S ∣ B ( x , r ) ∩ a f f S ∈ S , ∃ r > 0 } relint\ S = \{x\in S|B(x,r)\cap aff\ S\in S,\exist r>0\} relint S={x∈S∣B(x,r)∩aff S∈S,∃r>0}
x ∈ r e l i n t S x\in relint\ S x∈relint S,则 x x x是集合 S S S的一个相对内点
说明:如下图所示,二维空间内,圆的相对内部就是一个去了皮的圆;线段的相对内部就是去掉两个端点
Slater条件
设原问题为凸优化问题,可行域为 D D D,若存在一点 x ∈ r e l i n t D x\in relint\ D x∈relint D使得
f i ( x ) < 0 , i = 1 , . . . , m f_i(x)<0,i=1,...,m fi(x)<0,i=1,...,m, A x = b Ax=b Ax=b成立,那么强对偶性成立。
弱化的Slater条件
当部分 f i ( x ) f_i(x) fi(x)为仿射函数时,设 f i ( x ) , i = 1 , . . . , n f_i(x),i=1,...,n fi(x),i=1,...,n是仿射的, f i ( x ) , i = n + 1 , . . . , m f_i(x),i=n+1,...,m fi(x),i=n+1,...,m不是仿射的,则Slater条件可以弱化为:
设原问题为凸优化问题,可行域为 D D D,若存在一点 x ∈ r e l i n t D x\in relint\ D x∈relint D使得
f i ( x ) < 0 , i = n + 1 , . . . , m f_i(x)<0,i=n+1,...,m fi(x)<0,i=n+1,...,m, A x = b Ax=b Ax=b成立,那么强对偶性成立。
因此,线性规划问题的强对偶性一定成立。
Slater条件是充分不必要条件
KKT最优性条件
基本要求
- 目标函数和约束函数可微;
- 强对偶性成立。
KKT条件
5条:
非凸问题(必要不充分)
对于任意优化问题,如果强对偶性成立,那么其任意一对原问题最优解和对偶问题最优解一定满足KKT条件。
凸问题(充要)
对于凸优化问题:
- 如果强对偶性成立,那么其任意一对原问题最优解和对偶问题最优解一定满足KKT条件;
- 若存在 ( x , λ , ν ) (x,\lambda, \nu) (x,λ,ν)满足KKT条件,那么它们就是原问题和对偶问题的最优解且对偶间隙为零。