优化问题的最优性条件
无约束优化问题
设
f
(
x
)
:
Ω
→
R
,
Ω
∈
R
n
f(x):\Omega\rightarrow\mathbb{R},\Omega\in\mathbb{R}^n
f(x):Ω→R,Ω∈Rn为连续可微函数,
min
x
∈
Ω
f
(
x
)
(
1
)
\min_{x\in \Omega} f(x)\quad\quad\quad(1)
x∈Ωminf(x)(1)
优化问题(1)存在局部极小值
x
∗
x^*
x∗的充分必要条件为:
- ∇ x f ( x ∗ ) = 0 \nabla_xf(x^*)=0 ∇xf(x∗)=0;
-
x
∗
x^*
x∗处的Hessian矩阵半正定,即
v
T
(
∇
2
f
(
x
∗
)
)
v
≥
0
,
∀
v
∈
R
n
v^T(\nabla^2f(x^*))v\geq0,\forall v\in\mathbb{R}^n
vT(∇2f(x∗))v≥0,∀v∈Rn,
∇ 2 f ( x ) = ( ∂ 2 f ( x ) ∂ x 1 2 . . . ∂ 2 f ( x ) ∂ x 1 ∂ x n . . . . . . . . . ∂ 2 f ( x ) ∂ x n ∂ x 1 . . . ∂ 2 f ( x ) ∂ x n 2 ) \nabla^2f(x)=\left(\begin{matrix} \frac{\partial^2f(x)}{\partial x_1^2}&...&\frac{\partial^2f(x)}{\partial x_1\partial x_n}\\ ...&...&...\\ \frac{\partial^2f(x)}{\partial x_n\partial x_1}&...&\frac{\partial^2f(x)}{\partial x_n^2} \end{matrix}\right) ∇2f(x)=⎝⎜⎛∂x12∂2f(x)...∂xn∂x1∂2f(x).........∂x1∂xn∂2f(x)...∂xn2∂2f(x)⎠⎟⎞
约束优化问题
最优化问题的一般数学表现形式:
{
min
x
∈
Ω
f
(
x
)
s
.
t
.
g
i
(
x
)
≤
0
,
i
=
1
,
2
,
.
.
.
,
k
h
j
(
x
)
=
0
,
j
=
1
,
2
,
.
.
.
,
l
(
2
)
\left\{\begin{matrix}\min_{x\in \Omega} f(x)\\ \begin{aligned} s.t. g_i(x)&\leq0,i=1,2,...,k\\ h_j(x)&=0,j=1,2,...,l \end{aligned} \end{matrix}\right.\quad\quad(2)
⎩⎪⎨⎪⎧minx∈Ωf(x)s.t.gi(x)hj(x)≤0,i=1,2,...,k=0,j=1,2,...,l(2)
其中
f
(
x
)
f(x)
f(x)为目标函数,
g
i
(
x
)
g_i(x)
gi(x)为不等式约束,
h
j
(
x
)
h_j(x)
hj(x)为等式约束。
- 线性规划: f ( x ) f(x) f(x)、 g i ( x ) g_i(x) gi(x)、 h j ( x ) h_j(x) hj(x)均是线性函数。
- 非线性规划: f ( x ) f(x) f(x)、 g i ( x ) g_i(x) gi(x)、 h j ( x ) h_j(x) hj(x)有一个是非线性函数。
- 二次规划:目标函数为二次函数,约束函数全为线性函数。
- 凸优化:目标函数和不等式约束为凸函数,等式约束为线性函数。
KKT条件
定义拉格朗日函数:
L
(
x
,
μ
,
λ
)
=
f
(
x
)
+
μ
T
h
(
x
)
+
λ
T
g
(
x
)
\mathcal{L}(x,\boldsymbol{\mu},\boldsymbol{\lambda})=f(x)+\boldsymbol{\mu}^T\boldsymbol{h}(x)+\boldsymbol{\lambda}^T\boldsymbol{g}(x)
L(x,μ,λ)=f(x)+μTh(x)+λTg(x)
则
x
∗
x^*
x∗为局部极小值
⟺
\Longleftrightarrow
⟺存在唯一的
μ
∗
\boldsymbol{\mu}^*
μ∗、
λ
∗
\boldsymbol{\lambda}^*
λ∗满足KKT条件
- 一阶最优性条件: ∇ x L ( x ∗ , μ , λ ∗ ) = 0 \nabla_x\mathcal{L}(x^*,\boldsymbol{\mu},\boldsymbol{\lambda}^*)=\boldsymbol{0} ∇xL(x∗,μ,λ∗)=0
- 拉格朗日乘子: λ i ∗ ≥ 0 , μ i ∗ ≥ 0 ∀ i = 1 , . . . , k \lambda_i^*\geq0, \mu^*_i\geq0 \quad\forall i=1,...,k λi∗≥0,μi∗≥0∀i=1,...,k
- 互补松弛条件: λ i ∗ g ( x ∗ ) = 0 ∀ i = 1 , . . . , k \lambda_i^*g(x^*)=0\quad\forall i=1,...,k λi∗g(x∗)=0∀i=1,...,k
- 不等式约束条件: g i ( x ∗ ) ≤ 0 f o r i = 1 , . . . , k g_i(x^*)\leq0 for i=1,...,k gi(x∗)≤0fori=1,...,k
- 等式约束条件: h ( x ∗ ) = 0 \boldsymbol{h}(x^*)=0 h(x∗)=0
- 二阶最优性条件: ∇ x x L ( x ∗ , μ , λ ∗ ) \nabla_{xx}\mathcal{L}(x^*,\boldsymbol{\mu},\boldsymbol{\lambda}^*) ∇xxL(x∗,μ,λ∗)正定
约束条件分为等式约束与不等式约束,对于等式约束的优化问题,可以直接应用拉格朗日乘子法去求取最优值;对于含有不等式约束的优化问题,可以转化为在满足 KKT约束条件下应用拉格朗日乘子法求解。拉格朗日求得的并不一定是最优解,只有在凸优化的情况下,才能保证得到的是最优解。
不可微情形:次梯度
对于一个凸函数
f
(
x
)
f(x)
f(x),若不等式
f
(
x
ˉ
)
≥
f
(
x
)
+
<
z
,
x
ˉ
−
x
>
,
∀
x
ˉ
f(\bar{x})\geq f(x)+<z,\bar{x}-x>,\forall \bar{x}
f(xˉ)≥f(x)+<z,xˉ−x>,∀xˉ
成立,则称向量
z
z
z为函数
f
(
x
)
f(x)
f(x)在
x
x
x处的次梯度。
f
(
x
)
f(x)
f(x)在
x
x
x处的所有次梯度的集合称为次微分,记为
∂
f
(
x
)
\partial f(x)
∂f(x)。
绝对值函数
f
(
x
)
=
∣
x
∣
f(x)=|x|
f(x)=∣x∣的次微分为:
∂
f
(
x
)
=
{
+
1
,
x
>
0
−
1
,
x
<
0
[
−
1
,
+
1
]
,
x
=
0
\partial f(x)=\left\{ \begin{matrix} {+1},x>0\\ {-1},x<0\\ [-1,+1],x=0 \end{matrix} \right.
∂f(x)=⎩⎨⎧+1,x>0−1,x<0[−1,+1],x=0
通常记 z ∈ s g n ( x ) z\in sgn(x) z∈sgn(x)。
设
f
(
x
)
f(x)
f(x)与
g
(
x
)
g(x)
g(x)均可微,给定仅含不等式的凸优化问题:
min
x
f
(
x
)
s
.
t
.
g
(
x
)
≤
0
\min_{x} f(x)\quad s.t. \quad g(x)\leq0
xminf(x)s.t.g(x)≤0
定义Lagrange函数为: L ( x , λ ) = f ( x ) + λ g ( x ) \mathcal{L}(x,\lambda)=f(x)+\lambda g(x) L(x,λ)=f(x)+λg(x)。
若至少存在一点 x ˉ ∈ r e l i n t D \bar{x}\in relintD xˉ∈relintD 使得 g ( x ˉ ) < 0 g(\bar{x})<0 g(xˉ)<0成立,则 x ∗ x^* x∗为优化问题的最优解,当且仅当,存在唯一的 λ ∗ ≥ 0 \lambda^*\geq0 λ∗≥0使得KKT条件成立:
- 拉格朗日条件: ∇ x L ( x ∗ , λ ∗ ) = ∇ f ( x ∗ ) + λ ∗ ∇ g ( x ∗ ) = 0 \nabla_{x}L(x^*,\lambda^*)=\nabla f(x^*)+\lambda^*\nabla g(x^*)=0 ∇xL(x∗,λ∗)=∇f(x∗)+λ∗∇g(x∗)=0
- 可行条件: g ( x ∗ ) ≤ 0 g(x^*)\leq0 g(x∗)≤0
- 互补松弛条件: λ ∗ g ( x ∗ ) = 0 \lambda^*g(x^*)=0 λ∗g(x∗)=0
其中 r e l i n t D relintD relintD表示可行域 D D D 的相对内部(除去边界的部分)。
若
f
(
x
)
f(x)
f(x)和
g
(
x
)
g(x)
g(x)至少有一个不可微,则将拉格朗日条件中的梯度替换为次梯度,得到广义的KKT理论
0
∈
∂
f
(
x
∗
)
+
λ
∗
∂
g
(
x
∗
)
0\in\partial f(x^*)+\lambda^* \partial g(x^*)
0∈∂f(x∗)+λ∗∂g(x∗)
拉格朗日对偶
原始问题
一般约束优化问题:
{
min
x
∈
Ω
f
(
x
)
s
.
t
.
g
i
(
x
)
≤
0
,
i
=
1
,
2
,
.
.
.
,
k
h
j
(
x
)
=
0
,
j
=
1
,
2
,
.
.
.
,
l
(
2
)
\left\{\begin{matrix}\min_{x\in \Omega} f(x)\\\begin{aligned} s.t. g_i(x)&\leq0,i=1,2,...,k\\h_j(x)&=0,j=1,2,...,l \end{aligned} \end{matrix}\right.\quad\quad(2)
⎩⎪⎨⎪⎧minx∈Ωf(x)s.t.gi(x)hj(x)≤0,i=1,2,...,k=0,j=1,2,...,l(2)
定义拉格朗日函数:
L
(
x
,
μ
,
λ
)
=
f
(
x
)
+
∑
j
=
1
l
μ
j
h
j
(
x
)
+
∑
i
=
1
k
λ
i
g
i
(
x
)
=
f
(
x
)
+
μ
T
h
(
x
)
+
λ
T
g
(
x
)
\begin{aligned}\mathcal{L}(x,\boldsymbol{\mu},\boldsymbol{\lambda})&=f(x)+\sum_{j=1}^{l}\mu_jh_j(x)+\sum_{i=1}^{k}\lambda_ig_i(x)\\&=f(x)+\boldsymbol{\mu}^T\boldsymbol{h}(x)+\boldsymbol{\lambda}^T\boldsymbol{g}(x) \end{aligned}
L(x,μ,λ)=f(x)+j=1∑lμjhj(x)+i=1∑kλigi(x)=f(x)+μTh(x)+λTg(x)
定义
x
x
x的函数:
θ
P
(
x
)
=
max
μ
,
λ
;
λ
≥
0
L
(
x
,
μ
,
λ
)
\theta_P(x)=\max_{\boldsymbol{\mu},\boldsymbol{\lambda};\boldsymbol{\lambda}\geq\boldsymbol{0}}\mathcal{L}(x,\boldsymbol{\mu},\boldsymbol{\lambda})
θP(x)=μ,λ;λ≥0maxL(x,μ,λ)
则 θ P ( x ) = { f ( x ) g i ( x ) ≤ 0 , h j ( x ) = 0 + ∞ g i ( x ) > 0 , h j ( x ) ≠ 0 \theta_P(x)=\left\{\begin{matrix} f(x)&g_i(x)\leq0,h_j(x)=0\\ +\infty&g_i(x)>0,h_j(x)\neq0 \end{matrix}\right. θP(x)={f(x)+∞gi(x)≤0,hj(x)=0gi(x)>0,hj(x)=0
【说明】当 g i ( x ) ≤ 0 , h j ( x ) = 0 g_i(x)\leq0,h_j(x)=0 gi(x)≤0,hj(x)=0时, θ P ( x ) = max μ , λ ; λ ≥ 0 f ( x ) + ∑ i = 1 k λ i g i ( x ) \theta_P(x)=\max_{\boldsymbol{\mu},\boldsymbol{\lambda};\boldsymbol{\lambda}\geq\boldsymbol{0}}f(x)+\sum_{i=1}^{k}\lambda_ig_i(x) θP(x)=maxμ,λ;λ≥0f(x)+∑i=1kλigi(x),取 λ i = 0 \lambda_i=0 λi=0时 L ( x , μ , λ ) \mathcal{L}(x,\boldsymbol{\mu},\boldsymbol{\lambda}) L(x,μ,λ)取得极大值;当 g i ( x ) > 0 , h j ( x ) ≠ 0 g_i(x)>0,h_j(x)\neq0 gi(x)>0,hj(x)=0,可取 λ i → + ∞ , μ j h j ( x ) → + ∞ \lambda_i\rightarrow+\infty,\mu_jh_j(x)\rightarrow+\infty λi→+∞,μjhj(x)→+∞。
这样便把带约束的原始问题转(2)化成等价的无约束问题:
min
x
θ
P
(
x
)
=
min
x
max
μ
,
λ
;
λ
≥
0
L
(
x
,
μ
,
λ
)
\min_{x}\theta_P(x)=\min_{x}\max_{\boldsymbol{\mu},\boldsymbol{\lambda};\boldsymbol{\lambda}\geq\boldsymbol{0}}\mathcal{L}(x,\boldsymbol{\mu},\boldsymbol{\lambda})
xminθP(x)=xminμ,λ;λ≥0maxL(x,μ,λ)
对偶问题
定义对偶函数:
θ
D
(
μ
,
λ
)
=
min
x
L
(
x
,
μ
,
λ
)
\theta_D(\boldsymbol{\mu},\boldsymbol{\lambda})=\min_{x}\mathcal{L}(x,\boldsymbol{\mu},\boldsymbol{\lambda})
θD(μ,λ)=xminL(x,μ,λ)
定义对偶问题:
max
μ
,
λ
;
λ
≥
0
θ
D
(
μ
,
λ
)
=
max
μ
,
λ
;
λ
≥
0
min
x
L
(
x
,
μ
,
λ
)
\max_{\boldsymbol{\mu},\boldsymbol{\lambda};\boldsymbol{\lambda}\geq\boldsymbol{0}}\theta_D(\boldsymbol{\mu},\boldsymbol{\lambda})=\max_{\boldsymbol{\mu},\boldsymbol{\lambda};\boldsymbol{\lambda}\geq\boldsymbol{0}}\min_{x}\mathcal{L}(x,\boldsymbol{\mu},\boldsymbol{\lambda})
μ,λ;λ≥0maxθD(μ,λ)=μ,λ;λ≥0maxxminL(x,μ,λ)
对偶问题是凸优化问题
θ
D
(
μ
,
λ
)
=
inf
x
{
f
(
x
)
+
∑
j
=
1
l
μ
j
h
j
(
x
)
+
∑
i
=
1
k
λ
i
g
i
(
x
)
}
=
−
sup
x
{
−
f
(
x
)
−
∑
j
=
1
l
μ
j
h
j
(
x
)
−
∑
i
=
1
k
λ
i
g
i
(
x
)
}
\begin{aligned} \theta_D(\boldsymbol{\mu},\boldsymbol{\lambda})&=\inf_{x}\{f(x)+\sum_{j=1}^{l}\mu_jh_j(x)+\sum_{i=1}^{k}\lambda_ig_i(x)\}\\&=-\sup_{x}\{-f(x)-\sum_{j=1}^{l}\mu_jh_j(x)-\sum_{i=1}^{k}\lambda_ig_i(x)\} \end{aligned}
θD(μ,λ)=xinf{f(x)+j=1∑lμjhj(x)+i=1∑kλigi(x)}=−xsup{−f(x)−j=1∑lμjhj(x)−i=1∑kλigi(x)}
max
μ
,
λ
;
λ
≥
0
θ
D
(
μ
,
λ
)
=
min
x
sup
x
{
−
f
(
x
)
−
∑
j
=
1
l
μ
j
h
j
(
x
)
−
∑
i
=
1
k
λ
i
g
i
(
x
)
}
\max_{\boldsymbol{\mu},\boldsymbol{\lambda};\boldsymbol{\lambda}\geq\boldsymbol{0}}\theta_D(\boldsymbol{\mu},\boldsymbol{\lambda})=\min_{x}\sup_{x}\{-f(x)-\sum_{j=1}^{l}\mu_jh_j(x)-\sum_{i=1}^{k}\lambda_ig_i(x)\}
μ,λ;λ≥0maxθD(μ,λ)=xminxsup{−f(x)−j=1∑lμjhj(x)−i=1∑kλigi(x)}
仿射函数既是凸函数也是凹函数,凸函数的上确界仍是凸函数。
对偶问题的几何解释
假设要求解的原始问题为:
min
x
∈
Ω
f
(
x
)
s
.
t
.
g
(
x
)
≤
0
\min_{x\in \Omega} f(x)\quad s.t.\quad g(x)\leq0
x∈Ωminf(x)s.t.g(x)≤0
拉格朗日函数:
L
(
x
,
λ
)
=
f
(
x
)
+
λ
g
(
x
)
\mathcal{L}(x,\lambda)=f(x)+\lambda g(x)
L(x,λ)=f(x)+λg(x)
定义如下集合:
G
=
{
(
u
,
t
)
∣
u
=
g
(
x
)
,
t
=
f
(
x
)
,
x
∈
Ω
}
\mathcal{G}=\{(u,t)|u=g(x),t=f(x),x\in\Omega\}
G={(u,t)∣u=g(x),t=f(x),x∈Ω}
假设原始问题、对偶问题最优值均存在,记原始问题最优值为
p
∗
p^*
p∗,对偶问题最优值为
d
∗
d^*
d∗,则
p
∗
=
inf
{
t
∣
(
u
,
t
)
∈
G
,
u
≤
0
}
p^*=\inf\{t|(u,t)\in\mathcal{G},u\leq0\}
p∗=inf{t∣(u,t)∈G,u≤0}
d ∗ = max λ min x L ( x , λ ) = max λ min x ( t + λ u ) = max λ m ( λ ) d^*=\max_\lambda\min_{x}\mathcal{L}(x,\lambda)=\max_\lambda\min_{x}(t+\lambda u)=\max_\lambda m(\lambda) d∗=λmaxxminL(x,λ)=λmaxxmin(t+λu)=λmaxm(λ)
其中 m ( λ ) = min x ( t + λ u ) = inf x { t + λ u ∣ ( u , t ) ∈ G } m(\lambda)=\min_{x}(t+\lambda u)=\inf_x\{t+\lambda u|(u,t)\in\mathcal{G}\} m(λ)=minx(t+λu)=infx{t+λu∣(u,t)∈G}。
-
p ∗ p^* p∗: p ∗ p* p∗的表达式式表明原始问题最优值为在区域 G \mathcal{G} G内,寻找在 u ≤ 0 u\leq0 u≤0的条件下 t t t的最小值,在 t − u t-u t−u图中反映为,将 G \mathcal{G} G负 u u u半轴区域投影到 t t t轴,得到的 t t t轴上的线段的最小值。
-
d ∗ d^* d∗:首先关于直线 t + λ u = Δ t+\lambda u=\Delta t+λu=Δ需指出:(1)纵轴截距为 Δ \Delta Δ;(2)斜率为 − λ -\lambda −λ。 d ∗ d* d∗表达式中,对给定的 λ \lambda λ, m ( λ ) m(\lambda) m(λ)为在区域 G \mathcal{G} G内,寻找 t + λ u t+\lambda u t+λu的最小值,在 t − u t-u t−u图中反映为,给定斜率 λ \lambda λ,与 G \mathcal{G} G相交的直线 t + λ u = Δ t+\lambda u=\Delta t+λu=Δ中纵轴截距最小的直线对应的 Δ \Delta Δ;不同的 λ \lambda λ反映直线不同的斜率。
原始问题与对偶问题的关系
假设原始问题、对偶问题都有最优值,记原始问题、对偶问题的最优值分别为 p ∗ = min x θ P ( x ) = min x max μ , λ ; λ ≥ 0 L ( x , μ , λ ) p^*=\min_{x} \theta_P(x)=\min_{x}\max_{\boldsymbol{\mu},\boldsymbol{\lambda};\boldsymbol{\lambda}\geq\boldsymbol{0}}\mathcal{L}(x,\boldsymbol{\mu},\boldsymbol{\lambda}) p∗=xminθP(x)=xminμ,λ;λ≥0maxL(x,μ,λ) d ∗ = max μ , λ ; λ ≥ 0 θ D ( μ , λ ) = max μ , λ ; λ ≥ 0 min x L ( x , μ , λ ) d^*=\max_{\boldsymbol{\mu},\boldsymbol{\lambda};\boldsymbol{\lambda}\geq\boldsymbol{0}}\theta_D(\boldsymbol{\mu},\boldsymbol{\lambda})=\max_{\boldsymbol{\mu},\boldsymbol{\lambda};\boldsymbol{\lambda}\geq\boldsymbol{0}}\min_{x}\mathcal{L}(x,\boldsymbol{\mu},\boldsymbol{\lambda}) d∗=μ,λ;λ≥0maxθD(μ,λ)=μ,λ;λ≥0maxxminL(x,μ,λ)
1. 弱对偶性
定理:对于任何优化问题,均有 d ∗ ≤ p ∗ d^*\leq p^* d∗≤p∗(弱对偶性)
证明:
∀
x
,
μ
,
λ
\forall\quad x,\boldsymbol{\mu},\boldsymbol{\lambda}
∀x,μ,λ有:
θ
D
(
μ
,
λ
)
=
min
x
L
(
x
,
μ
,
λ
)
≤
L
(
x
,
μ
,
λ
)
≤
max
μ
,
λ
;
λ
≥
0
L
(
x
,
μ
,
λ
)
=
θ
P
(
x
)
\theta_D(\boldsymbol{\mu},\boldsymbol{\lambda})=\min_{x}\mathcal{L}(x,\boldsymbol{\mu},\boldsymbol{\lambda})\leq\mathcal{L}(x,\boldsymbol{\mu},\boldsymbol{\lambda})\leq\max_{\boldsymbol{\mu},\boldsymbol{\lambda};\boldsymbol{\lambda}\geq\boldsymbol{0}}\mathcal{L}(x,\boldsymbol{\mu},\boldsymbol{\lambda})=\theta_P(x)
θD(μ,λ)=xminL(x,μ,λ)≤L(x,μ,λ)≤μ,λ;λ≥0maxL(x,μ,λ)=θP(x)
由任意性得:
d
∗
=
max
μ
,
λ
;
λ
≥
0
θ
D
(
μ
,
λ
)
≤
min
x
θ
P
(
x
)
=
p
∗
d^*=\max_{\boldsymbol{\mu},\boldsymbol{\lambda};\boldsymbol{\lambda}\geq\boldsymbol{0}}\theta_D(\boldsymbol{\mu},\boldsymbol{\lambda})\leq \min_{x} \theta_P(x)=p^*
d∗=μ,λ;λ≥0maxθD(μ,λ)≤xminθP(x)=p∗
推论:设 x ∗ ; μ ∗ , λ ∗ x^*;\boldsymbol{\mu}^*,\boldsymbol{\lambda}^* x∗;μ∗,λ∗分别为原始问题和对偶问题的可行解,且 θ D ( μ ∗ , λ ∗ ) = θ P ( x ∗ ) \theta_D(\boldsymbol{\mu}^*,\boldsymbol{\lambda}^*)=\theta_P(x^*) θD(μ∗,λ∗)=θP(x∗),则 x ∗ ; μ ∗ , λ ∗ x^*;\boldsymbol{\mu}^*,\boldsymbol{\lambda}^* x∗;μ∗,λ∗分别为原始问题和对偶问题的最优解。
证明:
对原始问题的任一可行解 x x x,由上述定理, θ P ( x ) ≥ θ D ( μ ∗ , λ ∗ ) = θ P ( x ∗ ) \theta_P(x)\geq\theta_D(\boldsymbol{\mu}^*,\boldsymbol{\lambda}^*)=\theta_P(x^*) θP(x)≥θD(μ∗,λ∗)=θP(x∗),故 x ∗ x^* x∗是原始问题的最优解。对偶问题的任一可行解 μ , λ \mu,\lambda μ,λ,由上述定理, θ D ( μ , λ ) ≤ θ P ( x ∗ ) = θ D ( μ ∗ , λ ∗ ) \theta_D(\boldsymbol{\mu},\boldsymbol{\lambda})\leq\theta_P(x^*)=\theta_D(\boldsymbol{\mu}^*,\boldsymbol{\lambda}^*) θD(μ,λ)≤θP(x∗)=θD(μ∗,λ∗),故 μ ∗ , λ ∗ \boldsymbol{\mu}^*,\boldsymbol{\lambda}^* μ∗,λ∗是对偶问题的最优解。
2. 强对偶性
定义:强对偶性(strong duality)即满足 d ∗ = p ∗ d^*=p^* d∗=p∗。
定理:设函数 f ( x ) , g i ( x ) f(x),g_i(x) f(x),gi(x)是凸函数, h j ( x ) h_j(x) hj(x)是仿射函数(最高次数为1的多项式函数),不等式约束是严格可行的,即 ∃ x g i ( x ) < 0 ∀ i \exists x\quad g_i(x)<0\quad \forall i ∃xgi(x)<0∀i,则存在 x ∗ ; μ ∗ , λ ∗ x^*;\boldsymbol{\mu}^*,\boldsymbol{\lambda}^* x∗;μ∗,λ∗分别为原始问题和对偶问题的最优解,且 d ∗ = p ∗ = L ( x ∗ ; μ ∗ , λ ∗ ) d^*=p^*=\mathcal{L}(x^*;\boldsymbol{\mu}^*,\boldsymbol{\lambda}^*) d∗=p∗=L(x∗;μ∗,λ∗)。
定理描述的这类优化问题一定满足强对偶性。
KKT条件:
设函数
f
(
x
)
,
g
i
(
x
)
f(x),g_i(x)
f(x),gi(x)是凸函数,
h
j
(
x
)
h_j(x)
hj(x)是仿射函数,不等式约束是严格可行的,则
x
∗
;
μ
∗
,
λ
∗
x^*;\boldsymbol{\mu}^*,\boldsymbol{\lambda}^*
x∗;μ∗,λ∗分别为原始问题和对偶问题的最优解
⟺
\Longleftrightarrow
⟺
x
∗
;
μ
∗
,
λ
∗
x^*;\boldsymbol{\mu}^*,\boldsymbol{\lambda}^*
x∗;μ∗,λ∗满足Karush-Kuhn-Tucker(KKT)条件:
1.
∇
x
L
(
x
∗
;
μ
∗
,
λ
∗
)
=
0
2.
λ
i
∗
≥
0
f
o
r
i
=
1
,
.
.
.
,
k
3.
λ
i
∗
g
(
x
∗
)
=
0
f
o
r
i
=
1
,
.
.
.
,
k
4.
g
i
(
x
∗
)
≤
0
f
o
r
i
=
1
,
.
.
.
,
k
5.
h
(
x
∗
)
=
0
\begin{aligned} &1.\nabla_{x}\mathcal{L}(x^*;\boldsymbol{\mu}^*,\boldsymbol{\lambda}^*)=0\\ &2.\lambda_i^*\geq0 for i=1,...,k\\ &3.\lambda_i^*g(x^*)=0 for i=1,...,k\\ &4.g_i(x^*)\leq0 for i=1,...,k\\ &5.\boldsymbol{h}(x^*)=0 \end{aligned}
1.∇xL(x∗;μ∗,λ∗)=02.λi∗≥0fori=1,...,k3.λi∗g(x∗)=0fori=1,...,k4.gi(x∗)≤0fori=1,...,k5.h(x∗)=0
即约束优化问题的最优性条件,只不过这里是对上述定理中的优化问题描述了一遍。
强对偶性 ⇔ \Leftrightarrow ⇔ KKT条件:
设 x ∗ x^* x∗为原始问题的最优解, μ ∗ , λ ∗ \boldsymbol{\mu}^*,\boldsymbol{\lambda}^* μ∗,λ∗为对偶问题的最优解,若满足强对偶性,则 x ∗ ; μ ∗ , λ ∗ x^*;\boldsymbol{\mu}^*,\boldsymbol{\lambda}^* x∗;μ∗,λ∗满足 KKT 条件,相反地,若满足KKT条件,则满足强对偶性。
证明:
d ∗ = max μ , λ ; λ ≥ 0 θ D ( μ , λ ) = θ D ( μ ∗ , λ ∗ ) = min x L ( x , μ ∗ , λ ∗ ) ≤ L ( x ∗ , μ ∗ , λ ∗ ) = f ( x ∗ ) + ∑ j = 1 l μ j h j ( x ∗ ) + ∑ i = 1 k λ i g i ( x ∗ ) = f ( x ∗ ) + ∑ i = 1 k λ i g i ( x ∗ ) ≤ f ( x ∗ ) = p ∗ \begin{aligned}d^*&=\max_{\boldsymbol{\mu},\boldsymbol{\lambda};\boldsymbol{\lambda}\geq\boldsymbol{0}}\theta_D(\boldsymbol{\mu},\boldsymbol{\lambda})=\theta_D(\boldsymbol{\mu}^*,\boldsymbol{\lambda}^*)=\min_{x}\mathcal{L}(x,\boldsymbol{\mu}^*,\boldsymbol{\lambda}^*)\\&\leq\mathcal{L}(x^*,\boldsymbol{\mu}^*,\boldsymbol{\lambda}^*)=f(x^*)+\sum_{j=1}^{l}\mu_jh_j(x^*)+\sum_{i=1}^{k}\lambda_ig_i(x^*)\\&=f(x^*)+\sum_{i=1}^{k}\lambda_ig_i(x^*)\leq f(x^*)=p^*\end{aligned} d∗=μ,λ;λ≥0maxθD(μ,λ)=θD(μ∗,λ∗)=xminL(x,μ∗,λ∗)≤L(x∗,μ∗,λ∗)=f(x∗)+j=1∑lμjhj(x∗)+i=1∑kλigi(x∗)=f(x∗)+i=1∑kλigi(x∗)≤f(x∗)=p∗
(1)若
d
∗
=
p
∗
d^*=p^*
d∗=p∗,则上式不等式全为等式,
f
(
x
∗
)
+
∑
i
=
1
k
λ
i
g
i
(
x
∗
)
=
f
(
x
∗
)
⇒
∑
i
=
1
k
λ
i
g
i
(
x
∗
)
=
0
⇒
λ
i
g
i
(
x
∗
)
=
0
∀
i
f(x^*)+\sum_{i=1}^{k}\lambda_ig_i(x^*)=f(x^*)\Rightarrow \sum_{i=1}^{k}\lambda_ig_i(x^*)=0\Rightarrow \lambda_ig_i(x^*)=0\forall i
f(x∗)+i=1∑kλigi(x∗)=f(x∗)⇒i=1∑kλigi(x∗)=0⇒λigi(x∗)=0∀i
min
x
L
(
x
,
μ
∗
,
λ
∗
)
=
L
(
x
∗
,
μ
∗
,
λ
∗
)
⇒
∇
x
L
(
x
∗
;
μ
∗
,
λ
∗
)
=
0
\min_{x}\mathcal{L}(x,\boldsymbol{\mu}^*,\boldsymbol{\lambda}^*)=\mathcal{L}(x^*,\boldsymbol{\mu}^*,\boldsymbol{\lambda}^*)\Rightarrow \nabla_{x}\mathcal{L}(x^*;\boldsymbol{\mu}^*,\boldsymbol{\lambda}^*)=0
xminL(x,μ∗,λ∗)=L(x∗,μ∗,λ∗)⇒∇xL(x∗;μ∗,λ∗)=0
推得KKT条件1、3,其他条件为可行性条件。
(2)若KKT条件成立,(1)中箭头反向亦成立,上式不等式全为等式,推得 d ∗ = p ∗ d^*=p^* d∗=p∗。
凸优化+Slater条件 ⇒ \Rightarrow ⇒强对偶性:
若原始问题为凸优化问题,且满足slater条件,则存在 x ∗ , μ ∗ , λ ∗ x^*,\boldsymbol{\mu}^*,\boldsymbol{\lambda}^* x∗,μ∗,λ∗使得 x ∗ x^* x∗为原始问题最优解, μ ∗ , λ ∗ \boldsymbol{\mu}^*,\boldsymbol{\lambda}^* μ∗,λ∗为对偶问题最优解,且满足 d ∗ = p ∗ = L ( x ∗ , μ ∗ , λ ∗ ) d^*=p^*=\mathcal{L}(x^*,\boldsymbol{\mu}^*,\boldsymbol{\lambda}^*) d∗=p∗=L(x∗,μ∗,λ∗)。
注:
Slater条件:至少存在一点
x
∈
r
e
l
i
n
t
Ω
s
.
t
.
g
i
(
x
)
<
0
,
i
=
1
,
.
.
.
,
k
x\in relint \Omega\quad s.t.\quad g_i(x)<0,i=1,...,k
x∈relintΩs.t.gi(x)<0,i=1,...,k,其中
r
e
l
i
n
t
Ω
relint \Omega
relintΩ表示可行域
Ω
\Omega
Ω的相对内部(除去边界的部分)。
放松的slater条件:若 g i ( x ) g_i(x) gi(x)中有一部分是仿射函数( m m m个),只需其余 k − m k-m k−m个函数满足 x ∈ r e l i n t Ω s . t . g i ( x ) < 0 x\in relint \Omega\quad s.t.\quad g_i(x)<0 x∈relintΩs.t.gi(x)<0。
- 对于大多数凸优化问题,slater条件是成立的。