一、凸优化问题
考虑一个优化问题,其优化函数为凸函数,其约束集为凸集,则广义的称其为凸优化问题。
1.1 一般优化问题
再考虑一般优化问题的描述,形如
m
i
n
f
0
(
x
)
s
.
t
.
f
i
(
x
)
≤
0
,
i
=
1
,
.
.
.
,
m
h
i
(
x
)
=
0
,
i
=
1
,
.
.
.
,
p
\begin{aligned}min\ &f_0(\bm{x})\\ s.t.\ &f_i(\bm{x}) \le 0, i = 1, ..., m \\ & h_i(\bm{x}) = 0, i = 1, ..., p\end{aligned}
min s.t. f0(x)fi(x)≤0,i=1,...,mhi(x)=0,i=1,...,p其中,
x
\bm{x}
x称为优化变量;
f
0
:
R
n
→
R
f_0:\bm{R}^n \rightarrow R
f0:Rn→R称为目标函数或损失函数,或在极大化问题中称为效用函数;
f
i
:
R
n
→
R
f_i:\bm{R}^n \rightarrow R
fi:Rn→R称为不等式约束;
h
i
:
R
n
→
R
h_i:\bm{R}^n \rightarrow R
hi:Rn→R称为等式约束;所有函数的定义域交集
D
=
⋂
i
=
0
m
d
o
m
f
i
∩
⋂
i
=
1
p
d
o
m
h
i
D = \bigcap_{i=0}^m dom f_i \cap\bigcap_{i=1}^pdom h_i
D=i=0⋂mdomfi∩i=1⋂pdomhi称为优化问题的域;满足约束的解
x
∈
D
\bm{x} \in D
x∈D的集合
X
f
X_f
Xf称为可行解集。
若
X
f
≠
∅
X_f \ne \varnothing
Xf=∅,则总有
x
∈
X
f
\bm{x} \in X_f
x∈Xf使得目标函数取得最优值
p
∗
=
i
n
f
{
f
0
(
x
)
∣
x
∈
X
f
}
p^* = inf\{f_0(\bm{x})|\bm{x} \in X_f\}
p∗=inf{f0(x)∣x∈Xf}若
X
f
=
∅
X_f = \varnothing
Xf=∅,则取
p
∗
p^*
p∗取
+
∞
+\infty
+∞,以说明该极小化问题无意义。
对应的,若
x
∗
∈
D
\bm{x}^* \in D
x∗∈D且
f
0
(
x
∗
)
=
p
∗
f_0(\bm{x}^*) = p^*
f0(x∗)=p∗则称其为问题的最优解。最优解可以不唯一,便形成了最优解集
X
o
p
t
=
{
x
∣
x
∈
X
f
,
f
0
(
x
)
=
p
∗
}
X_{opt} = \{\bm{x}|\bm{x} \in X_f, f_0(\bm{x}) = p^*\}
Xopt={x∣x∈Xf,f0(x)=p∗} 然而很多实际问题并不需要最优解,考虑图像处理时PSNR过高,这是不必要的。对于达到一种对于工程问题充足满意的解,称为
ϵ
\epsilon
ϵ次优解集,形如
X
ϵ
=
{
x
∣
x
∈
X
f
,
f
0
(
x
)
≤
p
∗
+
ϵ
}
X_\epsilon = \{\bm{x}|\bm{x} \in X_f, f_0(\bm{x}) \le p^*+\epsilon\}
Xϵ={x∣x∈Xf,f0(x)≤p∗+ϵ} 再考虑一种解,其在局部范围内最优,称为局部最优解,形如
f
0
(
x
)
=
i
n
f
{
f
0
(
z
)
∣
s
.
t
.
∣
∣
z
−
x
∣
∣
≤
R
,
∃
R
>
0
}
f_0(\bm{x}) = inf\{f_0(\bm{z})|s.t.\, ||\bm{z} - \bm{x}|| \le R, \exist R > 0\}
f0(x)=inf{f0(z)∣s.t.∣∣z−x∣∣≤R,∃R>0} 对于寻找可行解集的问题,称为可行性优化问题,形如
m
i
n
0
s
.
t
.
f
i
(
x
)
≤
0
,
i
=
1
,
.
.
.
,
m
h
i
(
x
)
=
0
,
i
=
1
,
.
.
.
,
p
\begin{aligned}min\ &0 \\ s.t.\ &f_i(\bm{x}) \le 0, i = 1, ..., m \\ & h_i(\bm{x}) = 0, i = 1, ..., p\end{aligned}
min s.t. 0fi(x)≤0,i=1,...,mhi(x)=0,i=1,...,p
1.2 凸优化问题
狭义的考虑一种简单的凸问题,形如
m
i
n
f
0
(
x
)
s
.
t
.
f
i
(
x
)
≤
0
,
i
=
1
,
.
.
.
,
m
a
i
T
x
=
b
i
,
i
=
1
,
.
.
.
,
p
\begin{aligned}min\ &f_0(\bm{x})\\ s.t.\ &f_i(\bm{x}) \le 0, i = 1, ..., m \\ & \bm{a}_i^T\bm{x} = b_i, i = 1, ..., p\end{aligned}
min s.t. f0(x)fi(x)≤0,i=1,...,maiTx=bi,i=1,...,p其目标函数、不等式约束函数为凸函数,且等式约束函数为仿射函数。其有一条重要性质,即其局部最优解就是全局最优解。
当目标函数可微时,考虑凸函数的一阶性质,即$
f
(
y
)
≥
f
(
x
)
+
▽
f
T
(
x
)
(
y
−
x
)
,
∀
x
,
y
∈
d
o
m
f
f(\bm{y}) \ge f(\bm{x}) + ▽f^T(\bm{x})(\bm{y} - \bm{x}), \forall \bm{x}, \bm{y} \in dom\ f
f(y)≥f(x)+▽fT(x)(y−x),∀x,y∈dom f再考虑凸问题的可行域
X
f
X_f
Xf,则当
▽
f
T
(
x
∗
)
(
y
−
x
∗
)
≥
0
,
∀
y
∈
X
f
▽f^T(\bm{x}^*)(\bm{y} - \bm{x}^*) \ge 0, \forall \bm{y} \in X_f
▽fT(x∗)(y−x∗)≥0,∀y∈Xf自然有
x
∗
∈
X
f
\bm{x}^* \in X_f
x∗∈Xf是最优解。
1.3 线性规划
考虑线性规划问题
m
i
n
c
T
x
+
d
s
.
t
.
G
x
≤
h
A
x
=
b
\begin{aligned}min\ &\bm{c}^T\bm{x} + \bm{d} \\ s.t.\ & \bm{G}\bm{x} \le \bm{h} \\& \bm{Ax} = \bm{b} \end{aligned}
min s.t. cTx+dGx≤hAx=b其目标函数与约束均是仿射的,其是凸问题的一个特例,其约束集是一个多面体,而最优值总是存在且至少有一个取在多面体的顶点。
考虑线性规划问题的等价变换,形如
m
i
n
c
T
x
+
d
s
.
t
.
G
x
+
S
=
h
A
x
=
b
S
≥
0
\begin{aligned}min\ &\bm{c}^T\bm{x} + \bm{d} \\ s.t.\ & \bm{G}\bm{x} + \bm{S} = \bm{h} \\& \bm{Ax} = \bm{b} \\& \bm{S} \ge 0 \end{aligned}
min s.t. cTx+dGx+S=hAx=bS≥0其中
S
\bm{S}
S称为松弛变量,其与上述式等价。再进行变换,考虑这样的问题,对于上述问题的最优解
x
∗
=
{
x
n
}
\bm{x}^* = \{x_n\}
x∗={xn},取出其中的正元素向量
x
+
\bm{x}^+
x+与复元素向量
x
−
\bm{x}^-
x−,使得
x
+
−
x
−
=
x
∗
\bm{x}^+ - \bm{x}^- = \bm{x}^*
x+−x−=x∗即
m
i
n
c
T
x
+
−
c
T
x
−
+
d
s
.
t
.
G
x
+
−
G
x
+
+
S
=
h
A
x
+
−
A
x
−
=
b
S
≥
0
x
i
+
≥
0
x
i
−
≥
0
\begin{aligned}min\ &\bm{c}^T\bm{x}^+ - \bm{c}^T\bm{x}^- + \bm{d} \\ s.t.\ & \bm{G}\bm{x}^+ - \bm{G}\bm{x}^+ + \bm{S} = \bm{h} \\& \bm{Ax}^+ - \bm{Ax}^- = \bm{b} \\& \bm{S} \ge 0 \\& x_i^+ \ge 0 \\& x_i^- \ge 0 \end{aligned}
min s.t. cTx+−cTx−+dGx+−Gx++S=hAx+−Ax−=bS≥0xi+≥0xi−≥0该变换依然等价,因为再变换前后,都有一一对应的可行解并且使得函数保持一致。虽然约束与自变量增加了,但其等式约束均仿射,且约束均为非负,故一般的优化问题都可以写成
m
i
n
c
T
x
s
.
t
.
A
x
=
b
x
i
≥
0
\begin{aligned}min\ &\bm{c}^T\bm{x} \\ s.t.\ &\bm{Ax} = \bm{b} \\& x_i \ge 0 \end{aligned}
min s.t. cTxAx=bxi≥0
1.4 二次规划
考虑二次规划问题
m
i
n
x
T
p
x
/
2
+
q
T
x
+
r
s
.
t
.
G
x
≤
h
A
x
=
b
\begin{aligned}min\ &\bm{x}^T\bm{px} / 2 + \bm{q}^T\bm{x} + r \\ s.t.\ & \bm{G}\bm{x} \le \bm{h} \\& \bm{Ax} = \bm{b} \end{aligned}
min s.t. xTpx/2+qTx+rGx≤hAx=b其目标函数为凸的二次函数,即
p
⪰
0
\bm{p} \succeq 0
p⪰0,且约束仿射。
线性规划的最优值总是存在且至少有一个取在约束的顶点,而二次规划的最优值可能出现在约束的内部。
当约束非仿射,而是一种二次的凸约束,则称其为二次约束二次规划【Quadratically Constrained Quadratic Programming,QCQP】,形如
m
i
n
x
T
p
x
/
2
+
q
T
x
+
r
s
.
t
.
x
T
P
x
/
2
+
Q
T
x
+
h
≤
0
A
x
=
b
\begin{aligned}min\ &\bm{x}^T\bm{px} / 2 + \bm{q}^T\bm{x} + \bm{r} \\ s.t.\ & \bm{x}^T\bm{Px} / 2 + \bm{Q}^T\bm{x} + \bm{h} \le 0 \\& \bm{Ax} = \bm{b} \end{aligned}
min s.t. xTpx/2+qTx+rxTPx/2+QTx+h≤0Ax=b考虑带噪声的系统
b
=
A
x
+
e
\bm{b} = \bm{Ax} + \bm{e}
b=Ax+e这是一个信号恢复问题,对于已知的
b
b
b与
A
\bm{A}
A,在未知误差
e
e
e下估计
x
\bm{x}
x的值。考虑最小二乘法,形如
x
^
=
a
r
g
m
i
n
x
∣
∣
b
−
A
x
∣
∣
2
=
a
r
g
m
i
n
x
∣
∣
b
−
A
x
∣
∣
2
2
=
a
r
g
m
i
n
x
x
T
A
T
A
x
−
2
b
T
A
x
+
b
T
b
=
(
A
−
1
A
)
−
1
A
T
b
\begin{aligned} \hat\bm{x} &= argmin_\bm{x} ||\bm{b} - \bm{Ax}||_2 \\&= argmin_\bm{x} ||\bm{b} - \bm{Ax}||_2^2 \\&= argmin_\bm{x}\bm{x}^T\bm{A}^T\bm{Ax} - 2\bm{b}^T\bm{Ax} + \bm{b}^T\bm{b} \\&= (\bm{A}^{-1}\bm{A})^{-1}\bm{A}^T\bm{b} \end{aligned}
x^=argminx∣∣b−Ax∣∣2=argminx∣∣b−Ax∣∣22=argminxxTATAx−2bTAx+bTb=(A−1A)−1ATb再考虑
x
\bm{x}
x是稀疏的,那么定义优化函数,形如
x
^
=
a
r
g
m
i
n
x
∣
∣
b
−
A
x
∣
∣
2
2
+
λ
0
∣
∣
x
∣
∣
0
\hat\bm{x} = argmin_\bm{x} ||\bm{b} - \bm{Ax}||_2^2 + \lambda_0||\bm{x}||_0
x^=argminx∣∣b−Ax∣∣22+λ0∣∣x∣∣0以优化误差与稀疏程度。然而,带有0范数的函数是非凸函数,可以近似为
x
^
=
a
r
g
m
i
n
x
∣
∣
b
−
A
x
∣
∣
2
2
+
λ
1
∣
∣
x
∣
∣
1
\hat\bm{x} = argmin_\bm{x} ||\bm{b} - \bm{Ax}||_2^2 + \lambda_1||\bm{x}||_1
x^=argminx∣∣b−Ax∣∣22+λ1∣∣x∣∣1该问题称为l1范数规范化问题。但该问题虽然是凸问题,但1范数不符合二次规划问题,取
x
=
x
+
−
x
−
\bm{x} = \bm{x}^+ - \bm{x}^-
x=x+−x−形如
x
^
=
a
r
g
m
i
n
x
∣
∣
b
−
A
x
∣
∣
2
2
+
λ
1
∣
∣
x
+
−
x
−
∣
∣
1
\hat\bm{x} = argmin_\bm{x} ||\bm{b} - \bm{Ax}||_2^2 + \lambda_1||\bm{x}^+ - \bm{x}^-||_1
x^=argminx∣∣b−Ax∣∣22+λ1∣∣x+−x−∣∣1即
m
i
n
∣
∣
b
−
A
x
∣
∣
2
2
+
λ
1
1
T
x
+
+
λ
1
1
T
x
−
s
.
t
.
x
+
≥
0
x
−
≥
0
\begin{aligned}min\ & ||\bm{b} - \bm{Ax}||_2^2 + \lambda_1\bm1^T\bm{x}^+ + \lambda_1\bm1^T\bm{x}^- \\ s.t.\ &\bm{x}^+ \ge 0 \\& \bm{x}^- \ge 0\end{aligned}
min s.t. ∣∣b−Ax∣∣22+λ11Tx++λ11Tx−x+≥0x−≥0该问题是一个二次规划问题。
此外,l2范数规范化问题,又称岭回归问题,也是一种重要的问题。考虑
x
\bm{x}
x中的值相差不大,则其2范数较小,形如
x
^
=
a
r
g
m
i
n
x
∣
∣
b
−
A
x
∣
∣
2
2
+
λ
2
∣
∣
x
∣
∣
2
2
\hat\bm{x} = argmin_\bm{x} ||\bm{b} - \bm{Ax}||_2^2 + \lambda_2||\bm{x}||_2^2
x^=argminx∣∣b−Ax∣∣22+λ2∣∣x∣∣22其惩罚了权重过大的分量,
x
\bm{x}
x的系数为
A
T
A
+
λ
2
I
\bm{A}^T\bm{A} + \lambda_2\bm{I}
ATA+λ2I,即若
λ
2
>
0
\lambda_2 > 0
λ2>0,
x
\bm{x}
x正定,即该问题是一个凸问题。
二、对偶性
2.1 拉格朗日函数
考虑优化问题
m
i
n
f
0
(
x
)
s
.
t
.
f
i
(
x
)
≤
0
,
i
=
1
,
.
.
.
,
m
h
i
(
x
)
=
0
,
i
=
1
,
.
.
.
,
p
\begin{aligned}min\ &f_0(\bm{x}) \\ s.t.\ &f_i(\bm{x}) \le 0, i = 1, ..., m \\& h_i(\bm{x}) = 0, i = 1, ..., p \end{aligned}
min s.t. f0(x)fi(x)≤0,i=1,...,mhi(x)=0,i=1,...,p对于一般问题,其不一定是凸的,那么可以从对偶性的角度来解决。
首先考虑
x
∈
R
n
\bm{x} \in \bm{R}^n
x∈Rn,定义域为约束的定义域,以及最优值
p
∗
p^*
p∗,定义拉格朗日函数,形如
L
(
x
,
λ
,
v
)
=
f
0
(
x
)
+
∑
i
=
1
m
λ
i
f
i
(
x
)
+
∑
i
=
1
p
v
i
h
i
(
x
)
L(\bm{x}, \bm\lambda, \bm{v}) = f_0(\bm{x}) + \sum_{i=1}^m\lambda_if_i(\bm{x}) + \sum_{i = 1}^pv_ih_i(\bm{x})
L(x,λ,v)=f0(x)+i=1∑mλifi(x)+i=1∑pvihi(x)其中,
λ
∈
R
m
\bm{\lambda} \in \bm{R}^m
λ∈Rm,
v
∈
R
p
\bm{v} \in \bm{R}^p
v∈Rp称为拉格朗日乘子。
再定义拉格朗日对偶函数,形如
g
(
λ
,
v
)
=
i
n
f
x
∈
D
L
(
x
,
λ
,
v
)
g(\bm\lambda, \bm{v}) = inf_{\bm{x} \in D}L(\bm{x}, \bm\lambda, \bm{v})
g(λ,v)=infx∈DL(x,λ,v)即
L
L
L的下确界。
无论原优化问题的凸性如何,由于
L
(
x
,
λ
,
v
)
L(\bm{x}, \bm\lambda, \bm{v})
L(x,λ,v)对
λ
,
v
\bm\lambda, \bm{v}
λ,v是仿射的,故取一系列仿射函数的下界,即对偶函数一定是一个凹函数,且
∀
λ
>
0
,
∀
v
,
g
(
λ
,
v
)
≤
p
∗
\forall \lambda >0, \forall v, g(\bm\lambda, \bm{v}) \le p^*
∀λ>0,∀v,g(λ,v)≤p∗。
设
x
∗
\bm{x}^*
x∗是上述优化问题的最优解,则其满足约束,即
f
(
x
∗
)
≤
0
,
h
(
x
∗
)
=
0
f(\bm{x}^*) \le 0, h(\bm{x}^*) = 0
f(x∗)≤0,h(x∗)=0那么当
∀
λ
>
0
,
∀
v
\forall \lambda >0, \forall v
∀λ>0,∀v,有
∑
i
=
1
m
λ
i
f
i
(
x
∗
)
+
∑
i
=
1
p
v
i
h
i
(
x
∗
)
≤
0
L
(
x
∗
,
λ
,
v
)
=
f
0
(
x
∗
)
+
∑
i
=
1
m
λ
i
f
i
(
x
∗
)
+
∑
i
=
1
p
v
i
h
i
(
x
∗
)
\sum_{i=1}^m\lambda_if_i(\bm{x}^*) + \sum_{i = 1}^pv_ih_i(\bm{x}^*) \le 0 \\ L(\bm{x}^*, \bm\lambda, \bm{v}) = f_0(\bm{x}^*) + \sum_{i=1}^m\lambda_if_i(\bm{x}^*) + \sum_{i = 1}^pv_ih_i(\bm{x}^*)
i=1∑mλifi(x∗)+i=1∑pvihi(x∗)≤0L(x∗,λ,v)=f0(x∗)+i=1∑mλifi(x∗)+i=1∑pvihi(x∗)即
g
(
λ
,
v
)
≤
L
(
x
∗
,
λ
,
v
)
≤
p
∗
g(\bm\lambda, \bm{v}) \le L(\bm{x}^*, \bm\lambda, \bm{v}) \le p^*
g(λ,v)≤L(x∗,λ,v)≤p∗
2.2 共轭函数
对于映射
f
:
R
n
→
R
f:\bm{R}^n \rightarrow R
f:Rn→R,称映射
f
∗
(
y
)
=
s
u
p
x
∈
d
o
m
f
(
y
T
x
−
f
(
x
)
)
f^*(\bm{y}) = sup_{\bm{x} \in dom f}(\bm{y}^T\bm{x} - f(\bm{x}))
f∗(y)=supx∈domf(yTx−f(x))为映射
f
f
f的共轭。
考虑一个简单的优化问题
m
i
n
f
(
x
)
s
.
t
.
x
=
0
\begin{aligned}min\ &f(x) \\ s.t.\ &x = 0\end{aligned}
min s.t. f(x)x=0显然,
x
∗
=
0
x^* = 0
x∗=0。从对偶与共轭的角度考虑,其拉格朗日函数与对偶函数为
L
(
x
,
v
)
=
f
(
x
)
+
v
x
,
d
o
m
L
=
d
o
m
f
∩
R
g
(
v
)
=
i
n
f
x
∈
d
o
m
f
(
f
(
x
)
+
v
x
)
L(x, v) = f(x) + vx, domL = domf \cap R \\ g(v) = inf_{x \in domf}(f(x) + vx)
L(x,v)=f(x)+vx,domL=domf∩Rg(v)=infx∈domf(f(x)+vx)将对偶函数翻转为上界,形如
g
(
v
)
=
−
s
u
b
x
∈
d
o
m
f
(
−
f
(
x
)
−
v
x
)
g(v) = -sub_{x \in domf}(-f(x) - vx)
g(v)=−subx∈domf(−f(x)−vx)又
f
(
x
)
f(x)
f(x)的共轭函数为
f
∗
(
−
v
)
=
s
u
p
x
∈
d
o
m
f
(
−
v
x
−
f
(
x
)
)
)
f^*(-v) = sup_{x \in dom f}(-vx - f(x)))
f∗(−v)=supx∈domf(−vx−f(x)))故
g
(
v
)
=
−
f
∗
(
−
v
)
g(v) = -f^*(-v)
g(v)=−f∗(−v)
2.3 强对偶与弱对偶问题
考虑最大化优化问题的拉格朗日函数
m
a
x
g
(
λ
,
v
)
s
.
t
.
λ
i
≥
0
\begin{aligned}max\ &g(\bm\lambda, \bm{v}) \\ s.t.\ &\lambda_i \ge 0\end{aligned}
max s.t. g(λ,v)λi≥0该优化问题称为原优化问题的对偶问题。
定义其上界为
d
∗
d^*
d∗,则
d
∗
≤
p
∗
d^* \le p^*
d∗≤p∗。对偶问题是一个凸问题,其约束为半平面集,故必有最优解,定义最优解为
λ
∗
,
v
∗
\bm\lambda^*, \bm{v}^*
λ∗,v∗,称为对偶问题的最优解,也称最优拉格朗日乘子。该问题的定义域为
R
m
+
p
\bm{R}^{m+p}
Rm+p。
首先定义,当一个优化问题的对偶问题的最优解
d
∗
d^*
d∗与该优化问题的最优解
p
∗
p^*
p∗有
d
∗
≤
p
∗
d^* \le p^*
d∗≤p∗则称该对偶关系为弱对偶,任何优化问题与其对偶问题都是弱对偶的。而当
d
∗
=
p
∗
d^* = p^*
d∗=p∗则称该对偶关系为强对偶。接下来讨论何时一个优化问题与其对偶问题为强对偶关系。
首先给出一些定义。定义对偶间隙
p
∗
−
d
∗
p^* - d^*
p∗−d∗,则强对偶时,对偶间隙为0;定义原问题
D
D
D的相对内部
R
e
l
i
n
t
D
=
{
x
∈
D
∣
B
(
x
,
r
)
∩
a
f
f
D
⊆
D
∃
r
>
0
}
Relint\ D = \{\bm{x}\in D|B(\bm{x}, r)\cap aff\ D \subseteq D \exists r > 0\}
Relint D={x∈D∣B(x,r)∩aff D⊆D∃r>0}其中,
B
(
x
,
r
)
B(\bm{x}, r)
B(x,r)表示以
x
\bm{x}
x为中心,
r
r
r为半径的球;
a
f
f
D
aff\ D
aff D表示
D
D
D的仿射包。直观的讲,
D
D
D的相对内部就是去除
D
D
D的边界后的开集区域。
有了相对内部的定义,就可以通过斯莱特【Slater】条件使得对偶间隙为0。该条件仅是一个充分条件,仅可在某些条件下使得对偶间隙为0,但不满足该条件依然可能使得对偶间隙为0。该条件的内容为,若有凸问题
m
i
n
f
0
(
x
)
s
.
t
.
f
i
(
x
)
≤
0
,
i
=
1
,
.
.
.
,
m
h
i
(
x
)
=
0
,
i
=
1
,
.
.
.
,
p
\begin{aligned}min\ &f_0(\bm{x})\\ s.t.\ &f_i(\bm{x}) \le 0, i = 1, ..., m \\ & h_i(\bm{x}) = 0, i = 1, ..., p\end{aligned}
min s.t. f0(x)fi(x)≤0,i=1,...,mhi(x)=0,i=1,...,p其中
f
i
(
x
)
f_i(x)
fi(x)为凸,当
∃
x
∈
R
e
l
i
n
t
D
\exists \bm{x} \in Relint\ D
∃x∈Relint D使得
f
i
(
x
)
<
0
f_i(\bm{x}) < 0
fi(x)<0与
h
i
(
x
)
=
0
h_i(\bm{x}) = 0
hi(x)=0同时成立时,有
p
∗
=
d
∗
p^* = d^*
p∗=d∗。
2.4 KKT条件
斯莱特条件给出了凸问题强对偶的充分成立条件。而接下来对于更一般的凸优化问题进行讨论。考虑优化问题
m
i
n
f
0
(
x
)
s
.
t
.
f
i
(
x
)
≤
0
,
i
=
1
,
.
.
.
,
m
h
i
(
x
)
=
0
,
i
=
1
,
.
.
.
,
p
\begin{aligned}min\ &f_0(\bm{x})\\ s.t.\ &f_i(\bm{x}) \le 0, i = 1, ..., m \\ & h_i(\bm{x}) = 0, i = 1, ..., p\end{aligned}
min s.t. f0(x)fi(x)≤0,i=1,...,mhi(x)=0,i=1,...,p其对偶函数为
g
(
λ
,
v
)
=
i
n
f
x
∈
D
{
f
0
(
x
)
+
∑
i
=
1
m
λ
i
f
i
(
x
)
+
∑
i
=
1
p
v
i
h
i
(
x
)
}
g(\bm\lambda, \bm{v}) = inf_{\bm{x} \in D}\{ f_0(\bm{x}) + \sum_{i=1}^m\lambda_if_i(\bm{x}) + \sum_{i = 1}^pv_ih_i(\bm{x})\}
g(λ,v)=infx∈D{f0(x)+i=1∑mλifi(x)+i=1∑pvihi(x)}其对偶问题为
m
a
x
g
(
λ
,
v
)
s
.
t
.
λ
i
≥
0
\begin{aligned}max\ &g(\bm\lambda, \bm{v}) \\ s.t.\ &\lambda_i \ge 0\end{aligned}
max s.t. g(λ,v)λi≥0对于非常一般的优化问题,其分析是十分复杂的,因此做出两个强假设。首先,假设优化问题与其对偶问题是强对偶的;其次,所有函数都是可微的。
考虑优化问题的最优解
x
∗
\bm{x}^*
x∗与对偶问题的最优解
λ
∗
,
v
∗
\bm\lambda^*, \bm{v}^*
λ∗,v∗,其满足如下性质
f
i
(
x
∗
)
≤
0
,
i
=
1
,
.
.
.
,
m
h
i
(
x
∗
)
=
0
,
i
=
1
,
.
.
.
,
p
λ
i
∗
>
0
f_i(\bm{x}^*) \le 0, i = 1, ..., m \\ h_i(\bm{x}^*) = 0, i = 1, ..., p \\ \lambda_i^* > 0
fi(x∗)≤0,i=1,...,mhi(x∗)=0,i=1,...,pλi∗>0其分别是优化问题与对偶问题的可行性。再考虑优化问题的最优值
p
∗
p^*
p∗与对偶问题的最优解
d
∗
d^*
d∗,有
f
0
(
x
∗
)
=
g
(
λ
∗
,
v
∗
)
=
i
n
f
x
∈
D
{
f
0
(
x
)
+
∑
i
=
1
m
λ
i
∗
f
i
(
x
)
+
∑
i
=
1
p
v
i
∗
h
i
(
x
)
}
≤
f
0
(
x
∗
)
+
∑
i
=
1
m
λ
i
∗
f
i
(
x
∗
)
+
∑
i
=
1
p
v
i
∗
h
i
(
x
∗
)
≤
f
0
(
x
∗
)
\begin{aligned}f_0(\bm{x}^*) &= g(\bm\lambda^*, \bm{v}^*) \\&= inf_{\bm{x} \in D}\{ f_0(\bm{x}) + \sum_{i=1}^m\lambda^*_if_i(\bm{x}) + \sum_{i = 1}^pv^*_ih_i(\bm{x})\} \\&\le f_0(\bm{x}^*) + \sum_{i=1}^m\lambda^*_if_i(\bm{x}^*) + \sum_{i = 1}^pv^*_ih_i(\bm{x}^*) \\&\le f_0(\bm{x}^*) \end{aligned}
f0(x∗)=g(λ∗,v∗)=infx∈D{f0(x)+i=1∑mλi∗fi(x)+i=1∑pvi∗hi(x)}≤f0(x∗)+i=1∑mλi∗fi(x∗)+i=1∑pvi∗hi(x∗)≤f0(x∗)因此,上述不等式在
p
∗
=
d
∗
p^* = d^*
p∗=d∗下,等号恒成立,即
∑
i
=
1
m
λ
i
∗
f
i
(
x
∗
)
=
0
\sum_{i=1}^m\lambda^*_if_i(\bm{x}^*) = 0
i=1∑mλi∗fi(x∗)=0又
λ
i
≥
0
,
f
i
(
x
)
≤
0
\lambda_i \ge 0, f_i(\bm{x}) \le 0
λi≥0,fi(x)≤0,故有
λ
i
∗
f
i
(
x
∗
)
=
0
,
i
=
1
,
.
.
.
,
m
\lambda^*_if_i(\bm{x}^*) = 0, i = 1, ..., m
λi∗fi(x∗)=0,i=1,...,m即有
f
i
(
x
∗
)
=
0
i
f
λ
i
∗
>
0
λ
i
∗
=
0
i
f
f
i
(
x
∗
)
<
0
f_i(\bm{x}^*) = 0\ if\ \lambda_i^* > 0 \\ \lambda_i^* = 0\ if \ f_i(\bm{x}^*) < 0
fi(x∗)=0 if λi∗>0λi∗=0 if fi(x∗)<0该条件称为互补松弛条件。再考虑
i
n
f
x
∈
D
L
(
x
,
λ
∗
,
v
∗
)
=
L
(
x
∗
,
λ
∗
,
v
∗
)
inf_{\bm{x} \in D}L(\bm{x}, \bm\lambda^*, \bm{v}^*) = L(\bm{x}^*, \bm\lambda^*, \bm{v}^*)
infx∈DL(x,λ∗,v∗)=L(x∗,λ∗,v∗),即
x
∗
\bm{x}^*
x∗是
L
L
L的全局最优解,那么其一阶偏导有
∂
L
(
x
,
λ
∗
,
v
∗
)
/
∂
x
∣
x
=
x
∗
=
0
∂L(\bm{x}, \bm\lambda^*, \bm{v}^*)/∂\bm{x}|_{\bm{x} = \bm{x}^*} = 0
∂L(x,λ∗,v∗)/∂x∣x=x∗=0该条件称为稳定性条件。
综上,上述条件可以分为四类:
(1)原问题的可行性;
(2)对偶问题的可行性;
(3)互补松弛条件;
(4)稳定性条件。
上述条件称为KKT条件。
KKT条件是一个必要条件,即优化问题与对偶问题强对偶时必须满足KKT条件。而当原问题是凸问题,各个函数可微,且强对偶时,则KKT条件为充要条件。
考虑凸优化问题的可行解
x
^
,
λ
^
,
v
^
\hat\bm{x}, \hat\bm\lambda, \hat\bm{v}
x^,λ^,v^满足KKT条件,则
f
i
(
x
^
)
≤
0
,
i
=
1
,
.
.
,
m
h
i
(
x
^
)
=
0
,
i
=
1
,
.
.
,
m
λ
^
i
≥
0
,
i
=
1
,
.
.
.
,
m
f_i(\hat\bm{x}) \le 0, i = 1, .., m \\ h_i(\hat\bm{x}) = 0, i = 1, .., m\\ \hat\lambda_i \ge 0, i = 1, ..., m
fi(x^)≤0,i=1,..,mhi(x^)=0,i=1,..,mλ^i≥0,i=1,...,m则有
L
(
x
,
λ
^
,
v
^
)
=
f
0
(
x
)
+
∑
i
=
1
m
λ
^
i
f
i
(
x
)
+
∑
i
=
1
p
v
i
^
h
i
(
x
)
\begin{aligned} L(\bm{x}, \hat\bm\lambda, \hat\bm{v})& = f_0(\bm{x}) + \sum_{i=1}^m\hat\lambda_if_i(\bm{x}) + \sum_{i = 1}^p\hat{v_i}h_i(\bm{x}) \end{aligned}
L(x,λ^,v^)=f0(x)+i=1∑mλ^ifi(x)+i=1∑pvi^hi(x)是一个凸函数的非负加权和,即依然为凸函数,根据稳定性条件,有
∂
L
(
x
,
λ
^
,
v
^
)
/
∂
x
∣
x
=
x
^
=
0
∂L(\bm{x}, \hat\bm\lambda, \hat\bm{v})/∂\bm{x}|_{\bm{x} = \hat\bm{x}} = 0
∂L(x,λ^,v^)/∂x∣x=x^=0此时,
x
^
\hat\bm{x}
x^便是全局最优解,则根据互补松弛条件,有
g
(
λ
^
,
v
^
)
=
i
n
f
x
∈
D
L
(
x
,
λ
^
,
v
^
)
=
L
(
x
^
,
λ
^
,
v
^
)
=
f
0
(
x
^
)
+
∑
i
=
1
m
λ
^
i
f
i
(
x
^
)
+
∑
i
=
1
p
v
i
^
h
i
(
x
^
)
=
f
0
(
x
^
)
\begin{aligned} g(\hat\bm\lambda, \hat\bm{v}) &= inf_{\bm{x} \in D}L(\bm{x}, \hat\bm\lambda, \hat\bm{v}) \\&= L(\hat\bm{x}, \hat\bm\lambda, \hat\bm{v}) \\&= f_0(\hat\bm{x}) + \sum_{i=1}^m\hat\lambda_if_i(\hat\bm{x}) + \sum_{i = 1}^p\hat{v_i}h_i(\hat\bm{x}) \\&= f_0(\hat\bm{x}) \end{aligned}
g(λ^,v^)=infx∈DL(x,λ^,v^)=L(x^,λ^,v^)=f0(x^)+i=1∑mλ^ifi(x^)+i=1∑pvi^hi(x^)=f0(x^)即满足KKT条件时优化问题强对偶。
总结斯莱特条件与KKT条件,可以概述为:凸问题未必强对偶,强对偶问题也未必是凸的,但对于强对偶问题,KKT条件是一个必要条件;而对于凸强对偶问题,KKT条件是一个充要条件。