1:拉格郎日函数
对于问题:
m
i
n
f
0
(
x
)
min \ f_0(x)
min f0(x)
f
i
(
x
)
≤
0
i
=
1
,
2...
,
n
f_i(x) \leq 0 \ i=1,2...,n
fi(x)≤0 i=1,2...,n
h
i
(
x
)
=
0
i
=
1
,
2...
,
n
h_i(x)= 0 \ i=1,2...,n
hi(x)=0 i=1,2...,n
注意这里没有指定函数是凸函数
对应的拉格郎日函数写为
L
(
x
,
λ
,
v
)
=
f
0
(
x
)
+
∑
i
=
1
n
λ
i
f
i
(
x
)
+
∑
i
=
1
n
v
i
h
i
(
x
)
,
λ
∈
R
n
,
v
∈
R
n
L(x,\lambda,v)=f_0(x)+\displaystyle \sum_{i=1}^n \lambda_i f_i(x) + \displaystyle \sum_{i=1}^n v_i h_i(x) \ ,\lambda \in R^n,v \in R^n
L(x,λ,v)=f0(x)+i=1∑nλifi(x)+i=1∑nvihi(x) ,λ∈Rn,v∈Rn
2:拉格郎日对偶函数:
g
(
λ
,
v
)
=
m
i
n
L
(
x
,
λ
,
v
)
g(\lambda,v)=min L(x,\lambda,v)
g(λ,v)=minL(x,λ,v)
表示在给定x的情况下的关于
λ
,
v
\lambda,v
λ,v的最小值函数
性质1:
g
(
λ
,
v
)
g(\lambda,v)
g(λ,v) 是凹函数
性质2:
∀
λ
≥
0
,
对
于
∀
v
,
有
g
(
λ
,
v
)
≤
p
∗
,
p
∗
是
原
拉
格
郎
日
函
数
的
最
优
解
\forall \lambda \geq 0 ,对于\forall v,有g(\lambda,v) \leq p^*,p^*是原拉格郎日函数的最优解
∀λ≥0,对于∀v,有g(λ,v)≤p∗,p∗是原拉格郎日函数的最优解
3:对偶问题:
{
m
a
x
g
(
λ
,
v
)
=
max
min
L
(
x
,
λ
,
v
)
λ
≥
0
\begin{cases} max \ g(\lambda,v)=\max \min L(x,\lambda,v) \\ \lambda \geq 0 \end{cases}
{max g(λ,v)=maxminL(x,λ,v)λ≥0
是凸问题,因为最大化凹函数等于最小化凸函数,自变量
λ
满
足
凸
集
的
定
义
\lambda 满足凸集的定义
λ满足凸集的定义
令对偶问题最优解为
d
∗
d^*
d∗
原问题最优解为
p
∗
p^*
p∗
当满足
d
∗
=
p
∗
d^*=p^*
d∗=p∗时,称为强对偶,
d
∗
≤
p
∗
d^* \leq p^*
d∗≤p∗为弱对偶
4:鞍点:
对于任意函数
f
(
w
,
z
)
f(w,z)
f(w,z),一定有下列不等式成立:也叫弱对偶关系
max
z
min
w
f
(
w
,
z
)
≤
min
w
max
z
f
(
w
,
z
)
\displaystyle \max_z \min_w \ f(w,z) \leq \displaystyle \min_w \max_z\ f(w,z)
zmaxwmin f(w,z)≤wminzmax f(w,z)
证明:
下列不等式恒成立:
min
w
f
(
w
,
z
)
≤
f
(
w
,
z
)
:
w
作
为
自
变
量
\displaystyle \min_w \ f(w,z) \leq \ f(w,z) \quad : w作为自变量
wmin f(w,z)≤ f(w,z):w作为自变量
f
(
w
,
z
)
≤
max
z
f
(
w
,
z
)
:
z
作
为
自
变
量
\displaystyle \ f(w,z) \leq \max_z \ f(w,z) \quad : z作为自变量
f(w,z)≤zmax f(w,z):z作为自变量
所以有:
min
w
f
(
w
,
z
)
≤
max
z
f
(
w
,
z
)
\displaystyle \min_w \ f(w,z) \leq \max_z \ f(w,z)
wmin f(w,z)≤zmax f(w,z)
令
min
w
f
(
w
,
z
)
=
α
(
z
)
:
α
(
z
)
是
关
于
z
的
函
数
\displaystyle \min_w \ f(w,z)=\alpha(z) \quad :\alpha(z)是关于z的函数
wmin f(w,z)=α(z):α(z)是关于z的函数
max
z
f
(
w
,
z
)
=
β
(
w
)
:
β
(
w
)
是
关
于
w
的
函
数
\displaystyle \max_z \ f(w,z)=\beta(w) \quad :\beta(w)是关于w的函数
zmax f(w,z)=β(w):β(w)是关于w的函数
所以有下列不等式恒成立
α
(
z
)
≤
β
(
w
)
\alpha(z) \leq \beta(w)
α(z)≤β(w)
也就有:
max
z
α
(
z
)
≤
min
w
β
(
w
)
\displaystyle \max_z \alpha(z) \leq \displaystyle \min_w \beta(w)
zmaxα(z)≤wminβ(w)
max
z
min
w
f
(
w
,
z
)
≤
min
w
max
z
f
(
w
,
z
)
\displaystyle \max_z \min_w \ f(w,z) \leq \displaystyle \min_w \max_z\ f(w,z)
zmaxwmin f(w,z)≤wminzmax f(w,z)
证明完毕
如果等式成立,并且
w
,
z
w,z
w,z取值相同的点称作鞍点
对于原问题:
m
a
x
L
(
x
,
λ
,
v
)
=
{
∞
:
当
λ
<
0
L
(
x
,
λ
,
v
)
:
当
λ
≥
0
max \ L(x,\lambda,v)= \begin{cases} \infty :\ 当 \lambda < 0 \\ L(x,\lambda,v) :\ 当 \lambda \geq 0 \end{cases}
max L(x,λ,v)={∞: 当λ<0L(x,λ,v): 当λ≥0
所以有下列关系成立
L
(
x
,
λ
,
v
)
=
{
min
max
L
(
x
,
λ
,
v
)
λ
≥
0
L(x,\lambda,v) = \begin{cases} \min \max L(x,\lambda,v) \\ \lambda \geq 0 \end{cases}
L(x,λ,v)={minmaxL(x,λ,v)λ≥0
鞍点定理:
若
w
∗
,
z
∗
是
函
数
f
(
w
,
z
)
的
鞍
点
,
则
强
对
偶
关
系
存
在
p
∗
=
d
∗
,
并
且
该
点
是
若w^*,z^*是函数f(w,z)的鞍点,则强对偶关系存在p^*=d^*,并且该点是
若w∗,z∗是函数f(w,z)的鞍点,则强对偶关系存在p∗=d∗,并且该点是
原
问
题
和
对
偶
问
题
的
最
优
解
原问题和对偶问题的最优解
原问题和对偶问题的最优解
5:当原问题是凸问题时,基本上满足slater 条件 ,从而满足 d ∗ = p ∗ d^*=p^* d∗=p∗
- slater 条件是充分条件
6:KKT条件:
令
:
x
∗
,
λ
∗
,
v
∗
令:x^*, \lambda^*,v^*
令:x∗,λ∗,v∗是原问题最优解,如果所有函数一阶可微,
并且满足
d
∗
=
p
∗
,
一
定
会
有
下
列
条
件
成
立
d^*=p^*,一定会有下列条件成立
d∗=p∗,一定会有下列条件成立
{
f
i
(
x
∗
)
≤
0
h
i
(
x
∗
)
=
0
前
两
条
保
证
原
问
题
满
足
约
束
λ
∗
≥
0
保
证
对
偶
问
题
满
足
约
束
λ
i
f
i
(
x
∗
)
=
0
互
补
松
弛
条
件
∇
f
0
(
x
∗
)
+
∑
i
=
1
n
λ
i
∇
f
i
(
x
∗
)
+
∑
i
=
1
n
v
i
∇
h
i
(
x
∗
)
=
0
满
足
凸
函
数
性
质
\begin{cases} f_i(x^*) \leq 0 \\ h_i(x^*) = 0 \quad 前两条保证原问题满足约束\\ \lambda^* \geq 0 \quad 保证对偶问题满足约束\\ \lambda_i f_i(x^*) =0 \quad 互补松弛条件\\ \nabla f_0(x^*)+\displaystyle \sum_{i=1}^n \lambda_i \nabla f_i(x^*) + \displaystyle \sum_{i=1}^n v_i \nabla h_i(x^*)=0 \quad 满足凸函数性质\ \end{cases}
⎩⎪⎪⎪⎪⎪⎪⎪⎪⎨⎪⎪⎪⎪⎪⎪⎪⎪⎧fi(x∗)≤0hi(x∗)=0前两条保证原问题满足约束λ∗≥0保证对偶问题满足约束λifi(x∗)=0互补松弛条件∇f0(x∗)+i=1∑nλi∇fi(x∗)+i=1∑nvi∇hi(x∗)=0满足凸函数性质
必要性证明:已知条件:
所
有
函
数
可
微
,
d
∗
=
p
∗
,
x
∗
,
λ
∗
,
v
∗
是
原
问
题
最
优
解
所有函数可微, d^*=p^*,x^*, \lambda^*,v^*是原问题最优解
所有函数可微,d∗=p∗,x∗,λ∗,v∗是原问题最优解
必然有
{
f
i
(
x
∗
)
≤
0
h
i
(
x
∗
)
=
0
λ
∗
≥
0
\begin{cases} f_i(x^*) \leq 0 \\ h_i(x^*) = 0 \\ \lambda^* \geq 0 \\ \end{cases}
⎩⎪⎨⎪⎧fi(x∗)≤0hi(x∗)=0λ∗≥0
前两条表示原问题有可行解,最后一条表示对偶问题有可行解
又因为
d
∗
=
p
∗
d^*=p^*
d∗=p∗
所以有:
f
0
(
x
∗
)
=
g
(
λ
∗
,
v
∗
)
f_0(x^*)=g(\lambda^*,v^*)
f0(x∗)=g(λ∗,v∗)
=
m
i
n
L
(
x
,
λ
∗
,
v
∗
)
=min \ L(x,\lambda^*,v^*)
=min L(x,λ∗,v∗)
=
m
i
n
(
f
0
(
x
)
+
∑
i
=
1
n
λ
i
∗
f
i
(
x
)
+
∑
i
=
1
n
v
i
∗
h
i
(
x
)
)
=min \ (f_0(x)+\displaystyle \sum_{i=1}^n \lambda_i^* f_i(x) + \displaystyle \sum_{i=1}^n v_i^* h_i(x))
=min (f0(x)+i=1∑nλi∗fi(x)+i=1∑nvi∗hi(x))
≤
f
0
(
x
∗
)
+
∑
i
=
1
n
λ
i
∗
f
i
(
x
∗
)
+
∑
i
=
1
n
v
i
∗
h
i
(
x
∗
)
\leq f_0(x^*)+\displaystyle \sum_{i=1}^n \lambda_i^* f_i(x^*) + \displaystyle \sum_{i=1}^n v_i^* h_i(x^*)
≤f0(x∗)+i=1∑nλi∗fi(x∗)+i=1∑nvi∗hi(x∗)
=
f
0
(
x
∗
)
= f_0(x^*)
=f0(x∗)
所以
λ
i
∗
f
i
(
x
∗
)
=
0
成
立
\lambda_i^* f_i(x^*)=0成立
λi∗fi(x∗)=0成立
又因为所有函数可微,那么我们知道函数的极值点是导数为0的点,所以会满足
∇
f
0
(
x
∗
)
+
∑
i
=
1
n
λ
i
∗
∇
f
i
(
x
∗
)
+
∑
i
=
1
n
v
i
∗
∇
h
i
(
x
∗
)
=
0
\nabla f_0(x^*)+\displaystyle \sum_{i=1}^n \lambda_i^* \nabla f_i(x^*) + \displaystyle \sum_{i=1}^n v_i^* \nabla h_i(x^*)=0
∇f0(x∗)+i=1∑nλi∗∇fi(x∗)+i=1∑nvi∗∇hi(x∗)=0
必要性证明完毕
6:充分性:
令
:
x
∗
,
λ
∗
,
v
∗
原
问
题
最
优
解
,
如
果
所
有
函
数
一
阶
可
微
,
令:x^*, \lambda^*,v^*原问题最优解,如果所有函数一阶可微,
令:x∗,λ∗,v∗原问题最优解,如果所有函数一阶可微,
并
且
所
有
函
数
都
是
凸
函
数
,
则
K
K
T
条
件
是
d
∗
=
p
∗
的
充
分
必
要
条
件
并且所有函数都是凸函数,则KKT条件是d^*=p^*的充分必要条件
并且所有函数都是凸函数,则KKT条件是d∗=p∗的充分必要条件