无约束优化最优性条件
1、一阶必要条件
定义1:设
f
(
x
)
~f(x)~
f(x) 在开集
D
~D~
D 上连续可微,若
x
∗
∈
D
~x^*\in D~
x∗∈D 是
min
x
∈
R
n
f
(
x
)
~\min_{x\in\mathbb{R}^n}f(x)~
x∈Rnminf(x)
的局部最优解,则
g
(
x
∗
)
=
0
~g(x^*)=0~
g(x∗)=0
证明:任给
d
∈
R
n
~d\in\mathbb{R}^n~
d∈Rn ,由局部最优解的定义,对任意充分小的数
t
>
0
~t>0~
t>0 ,有
f
(
x
∗
)
≤
f
(
x
∗
+
t
d
)
=
f
(
x
∗
)
+
t
∇
f
(
x
∗
)
T
d
+
o
(
t
)
~f(x^*)\le f(x^*+td)=f(x^*)+t\nabla f(x^*)^Td+o(t)~
f(x∗)≤f(x∗+td)=f(x∗)+t∇f(x∗)Td+o(t)
不等式的两端同时减去
f
(
x
∗
)
~f(x^*)~
f(x∗) 后除以
t
~t~
t ,并令
t
→
0
+
~t\rightarrow0^+~
t→0+ 可得
∇
f
(
x
∗
)
T
d
≥
0
,
∀
d
∈
R
n
~\nabla f(x^*)^Td\ge0,\forall d\in\mathbb{R}^n~
∇f(x∗)Td≥0,∀d∈Rn
特别地令
d
=
−
∇
f
(
x
∗
)
~d=-\nabla f(x^*)~
d=−∇f(x∗) 得
−
∥
∇
f
(
x
)
∥
2
=
−
∇
f
(
x
∗
)
T
∇
f
(
x
∗
)
≥
0
~~-\Vert \nabla f(x)\Vert^2=-~\nabla f(x^*)^T\nabla f(x^*)\ge0
−∥∇f(x)∥2=− ∇f(x∗)T∇f(x∗)≥0,
从而
∇
f
(
x
)
=
0
~\nabla f(x)=0~
∇f(x)=0
注:我们称所求的点
x
∗
~x^*~
x∗ 为函数
f
~f~
f 的稳定点(驻点),上述结果也表明无约束优化的局部最优解必是目标函数的稳定点。
2、二阶必要条件
定义2:设
f
(
x
)
~f(x)~
f(x) 在开集
D
~D~
D 上二阶连续可微,若
x
∗
∈
D
~x^*\in D~
x∗∈D 是
min
x
∈
R
n
~\min_{x\in\mathbb{R}^n}~
x∈Rnmin
的局部最优解,则
g
(
x
∗
)
=
0
~g(x^*)=0~
g(x∗)=0 ,
G
(
x
∗
)
~G(x^*)~
G(x∗) 是半正定矩阵
证明:
g
(
x
∗
)
=
0
~g(x^*)=0~
g(x∗)=0 ,上面已经证明,我们只需证明
G
(
x
∗
)
~G(x^*)~
G(x∗) 半正定矩阵
任给
d
∈
R
n
~d\in\mathbb{R}^n~
d∈Rn ,由局部最优解的定义,对任意充分小的数
t
~t~
t ,有
f
(
x
∗
)
≤
f
(
x
∗
+
t
d
)
=
f
(
x
∗
)
+
1
2
t
2
d
T
G
(
x
∗
)
d
+
o
(
t
2
)
f(x^*)\le f(x^*+td)=f(x^*)+\frac{1}{2}t^2d^TG(x^*)d+o(t^2)
f(x∗)≤f(x∗+td)=f(x∗)+21t2dTG(x∗)d+o(t2)
不等式的两端同时减去
f
(
x
∗
)
~f(x^*)~
f(x∗) 后除以
t
~t~
t ,并令
t
→
0
+
~t\rightarrow0^+~
t→0+ 可得
p
T
G
(
x
∗
)
p
≥
0
~p^TG(x^*)p\ge0~
pTG(x∗)p≥0 ,故
G
(
x
∗
)
~G(x^*)~
G(x∗) 半正定矩阵.
注:鞍点满足上述条件,但是鞍点既不是极大值点也不是极小值点。
3、二阶充分条件
定义3:设
f
(
x
)
~f(x)~
f(x) 在开集
D
~D~
D 上二阶连续可微,
x
∗
∈
D
~x^*\in D~
x∗∈D 是
min
x
∈
R
n
f
(
x
)
~\min_{x\in\mathbb{R}^n}f(x)~
x∈Rnminf(x)
的局部极小值点的充分条件是
g
(
x
∗
)
=
0
~g(x^*)=0~
g(x∗)=0 ,
G
(
x
∗
)
~G(x^*)~
G(x∗) 是正定矩阵
证明:对任意向量
d
~d~
d 和
ε
~\varepsilon~
ε ,有
f
(
x
∗
+
ε
d
)
=
f
(
x
∗
)
+
1
2
d
T
G
(
x
∗
+
θ
ε
d
)
d
f(x^*+\varepsilon d)=f(x^*)+\frac{1}{2}d^TG(x^*+\theta\varepsilon d)d
f(x∗+εd)=f(x∗)+21dTG(x∗+θεd)d
其中
θ
∈
(
0
,
1
)
~\theta\in(0,1)~
θ∈(0,1) .由于
G
(
x
∗
)
~G(x^*)~
G(x∗) 正定和
f
(
x
)
~f(x)~
f(x) 二阶导数矩阵连续,故存在
δ
>
0
~\delta>0~
δ>0 ,使得
G
(
x
∗
+
ε
d
)
~G(x^*+\varepsilon d)~
G(x∗+εd) 在
∥
ε
d
∥
≤
δ
~\Vert \varepsilon d\Vert\le\delta ~
∥εd∥≤δ
范围内正定,所以,
f
(
x
∗
+
ε
d
)
>
f
(
x
∗
)
~f(x^*+\varepsilon d)>f(x^*)~
f(x∗+εd)>f(x∗) ,从而定理成立
注:
G
(
x
∗
)
~G(x^*)~
G(x∗) 的正定性保证了函数在
x
∗
~x^*~
x∗ 处是严格凸的,
g
(
x
∗
)
=
0
~g(x^*)=0~
g(x∗)=0 保证函数
f
(
x
)
~f(x)~
f(x) 在
x
∗
~x^*~
x∗ 处是稳定点.
4、无约束优化凸函数的极值点
定义4:设凸函数
f
(
x
)
~f(x)~
f(x) 在开集
D
~D~
D 上连续可微,则
f
~f~
f 的局部极小值点也是其全局极小值点。而且,
x
∗
~x^*~
x∗ 是问题
min
x
∈
R
n
f
(
x
)
~\min_{x\in\mathbb{R}^n}f(x)~
x∈Rnminf(x)
的充要条件
g
(
x
∗
)
=
0
~g(x^*)=0~
g(x∗)=0 .
证明:先证明
f
~f~
f 的局部极值点也是全局极值点.设
x
∗
~x^*~
x∗ 是
f
~f~
f 的局部极值点。则存在
x
∗
~x^*~
x∗ 一个邻域
U
(
x
∗
)
~U(x^*)~
U(x∗) ,使得
f
(
x
)
≥
f
(
x
∗
)
,
∀
x
∈
U
(
x
∗
)
f(x)\ge f(x^*),~~~\forall ~x\in U(x^*)
f(x)≥f(x∗), ∀ x∈U(x∗)
对任意的
x
∈
R
n
~x\in\mathbb{R}^n~
x∈Rn ,当
α
>
0
~\alpha>0~
α>0 充分小时,
x
∗
+
α
(
x
−
x
∗
)
∈
U
(
x
∗
)
~x^*+\alpha (x-x^*)\in U(x^*)~
x∗+α(x−x∗)∈U(x∗) ,则有
f
(
x
∗
)
≤
f
(
x
∗
+
α
(
x
−
x
∗
)
)
=
f
(
α
x
+
(
1
−
α
)
x
∗
)
≤
α
f
(
x
)
+
(
1
−
α
)
f
(
x
∗
)
f(x^*)\le f(x^*+\alpha(x-x^*))=f(\alpha x+(1-\alpha)x^*)\le \alpha f(x)+(1-\alpha)f(x^*)
f(x∗)≤f(x∗+α(x−x∗))=f(αx+(1−α)x∗)≤αf(x)+(1−α)f(x∗)
即有
f
(
x
)
≥
f
(
x
∗
)
~f(x)\ge f(x^*)~
f(x)≥f(x∗) ,故当
f
(
x
)
~f(x)~
f(x) 为凸函数时,局部极小值点也是全局极小值点。
再证
f
(
x
)
~f(x)~
f(x) 为凸函数,
x
∗
~x^*~
x∗ 为极小值点的充要条件是
g
(
x
∗
)
=
0
~g(x^*)=0~
g(x∗)=0 .
必要性由前面可知,是显然的。
由
f
(
x
)
~f(x)~
f(x) 在
D
~D~
D 上为凸函数,即有
f
(
x
)
≥
f
(
x
∗
)
+
g
(
x
∗
)
T
(
x
−
x
∗
)
=
f
(
x
∗
)
,
∀
x
∈
D
f(x)\ge f(x^*)+g(x^*)^T(x-x^*)=f(x^*),~~~\forall x\in D
f(x)≥f(x∗)+g(x∗)T(x−x∗)=f(x∗), ∀x∈D
这表明
x
∗
~x^*~
x∗ 为整体极小值点
参考书籍
《数值最优化算法与理论》——李董辉
注:参考了倪勤老师与袁亚湘老师的书籍,关于上面的定理的证明虽然本质都差不多,但是个人感觉有点繁琐,所以选择了李董辉老师书上的证明,简洁明了。