前面几篇博客主要讲了无约束最优化问题的一些求解方法。从这一篇博客开始将开始讲有约束的最优化方法。首先说明一下有约束最优化问题的一般形式
在上面介绍了有约束最优化问题的一般形式后,其实我们可以进一步将其分解为等式约束最优化问题、不等式约束最优化问题和一般最优化问题。其中一般最优化问题的如公式(1)所示。等式约束最优化问题的一般形式为
mins.t.f(x)h(x)=0}(2)
其中
f:Rn→R1,h:Rn→Rl
。即等式约束最优化问题中的约束只有等式。
不等式约束最优化问题的一般形式为
下面讲等式约束最优化条件以及不等式约束最优化条件。
等式约束最优化条件
等式约束最优化条件的一般形式如公式(2)所示,我们将等式约束的最优化问题中的等式约束拆分为
定理1:(Lagrange定理重述) 假设
(i)
x∗
是约束问题(2)的局部最优解
(ii)
f,h1,h2,...,hl:Rn→R1
在
x∗
的某一个邻域内连续可微
(iii)
∇h1(x∗),∇h2(x∗),...,∇hl(x∗)
线性无关
那么,存在实数 λ∗1,λ∗2,...,λ∗l 使得
公式(4)是等式约束问题(2)的最优性一阶必要条件。
首先我们应该知道的是,对于约束最优化问题的局部极小点 x∗ ,不一定有 ∇f(x∗)=0 ,即 ∇f(x∗)=0 不再是约束最优化问题的必要条件。而定理1所指出的是,在局部最优点 x∗ 处的导数 ∇f(x∗) 与所有的约束曲面 hj(x)=0 的交集正交,因为按照定理1,我们知道 ∇f(x∗)=∑j=1l∇hj(x∗) ,即 ∇f(x∗) 在由约束曲面的法向量所张成的空间中。
通过这个定理,我们能够将等式约束问题转换为无约束问题,定义一个 n+l 元函数
Lagrange函数的梯度
由此我们知道
下面给出等式约束最优化问题的充分条件。
定理2: 在等式约束问题(2)中,假设:
(i)
f,h1,h2,...,hl:Rn→R1
是二次连续可微函数
(ii)存在
x∗∈Rn
与
λ∗∈Rl
,使得Lagrange函数的梯度为0,即
(iii)对于满足条件
定理2的几何意义是在Lagrange函数的驻点
[x∗λ∗]T
处,如果Lagrange函数关于
x
的Hesse矩阵在
不等式约束最优化条件
对于不等式约束的一般形式(3)我们换一种方法表示。首先我们用 D 表示容许集,
定义1:对于不等式约束最优化问题(3)。设 x~∈D ,若 x~ 是的某个不等式的约束 si(x~)=0 ,则该不等式约束 si(x)≥0 称为是关于容许点 x~ 的 起作用约束;否则,若 si(x)>0 ,则该不等式约束称为是关于容许点 x~ 的 不起作用约束。
通过定义1我们能够清楚的知道,只有容许集边界上的点才能使得某一个或这某些约束条件起作用。对于上图,我们可以看出,点 AB 都是容许点,所有的约束对于容许点B来说都是不起作用约束, s2(x) 对于容许点A是起作用约束。
几何最优性条件
定义2: 设
C
是
由向量
定义3:(容许方向向量,容许方向锥) 设 D 是
引理3: 设
通过引理3我们知道,若某一个容许点 x~ 近使某一个约束 si(x)≥0 变为起作用约束,而其他约束仍为不起作用约束时,可以知道 p=∇si(x~) 为点 x~ 处的容许方向向量。若容许点 x~ 使多个约束变为起作用约束,并记集合 I 为起作用约束的下标的集合,那么方向向量
定理4: 设
下面我们给出不等式约束最优性的几何最优性条件。
定理5: 在不等式约束最优化问题(3)中,若
x∗
是局部最优点,则点
x∗
处的容许方向锥和下降方向集是空集。
定理6: 在不等式约束最优化问题(3)中,假设:
(i)
x∗
是局部最优点,
I={i|si(x∗)=0,i=1,2,...,m}
;
(ii)
f(x)
在点
x∗
处可微,当
x∉I
时,
si(x)
在点
x∗
连续。
那么,容许方向锥和下降方向集的交集为空。
定理5和定理6仅给出了必要的最优性条件,而没有充分最优性条件。为什么不是充分条件也许很难理解,其实这主要是针对于容许集中某些点可能存在容许方向锥是空集的情况,比如下面的例子。
Fritz John条件
首先介绍两个引理
引理7:(Farkas) 设
a1,a2,...,am
和
b
是n维向量,则满足
简单理解: 如下图所示,由于所有的
ai
都有
aTip<0
,可以简单的认为所有的向量
ai
都在超平面
s1
的一侧,获得认为任意两个向量之间的夹角都要小于
π
,又由于
bTp≥0
,所以向量
b
与向量
引理8:(Gordan) 设 a1,a2,...,am 和 b 是n维向量,则不存在向量
简单理解: 根据引理8描述,我们知道必有向量
ai
使得
ai=−∑j≠iβjaj
,可以理解为下图。即存在一个超平面
s1
使得向量
si
分在超平面两侧;若所有向量
ai
都在超平面的一侧,必定存在另一条向量在超平面的另一侧使得
aTip<0
(表述有点问题,我是这么理解的)。
注: 上面的简单理解部分只是帮助理解这两个引理,并不正确,上面两个引理的证明比较繁琐,这里就不再证明。可以理解记忆,对于空间中的两个向量 a和b ,如果 aTb<0 ,则向量 a 和
定理9:(Fritz John) 在不等式约束最优化问题(3)中,设 x∗ 是局部最优解, f(x) , s1(x),s2(x),...,sm(x) 在点 x∗ 处可微。那么,存在不全为零的实数 μ0,μ1,...,μm ,使得
证明: 由于 x∗ 是极小点,根据定理6我们知道,比不存在向量 p 使得
对于FJ条件,我们可以这样理解。首先必须要清楚,定理9(FJ条件)是一个必要性条件,不是充分性条件,可以把定理9看作是定理6的一个数学描述。
(
其实,如果抛去必要性以及充分性,我们可以这么理解。根据FJ条件,假设
μ0
不为0,我们可以得到
这部分思考内容不一定正确,只是有助于自己的理解,这样思考也有助于记忆FJ条件会存在一些缺点,即 μ0 为0的时候,上面的思考就不成立。
)
Kuhn Tucker条件
其实,对于FJ条件,还是存在一定情况使得FJ条件失效的,加入对于在点 x∗ 处起作用的点的 ∇si(x∗) 是线性相关的的,即存在 μi 使得
定理10:(Kuhn-Tucker) 在不等式约束最优化问题(3)中,假设:i) x∗ 是局部最优点;ii) f(x),s1(x),s2(x),...,sm(x) 在点 x∗ 处可微;iii)点 x∗ 处全部起作用的约束线性无关。那么存在实数 μ0,μ1,...,μm ,使得
一般性约束最优性条件
关于一般性约束的FJ条件和KT条件,由于FJ条件的证明比较复杂,我们不给出证明;而KT条件可以参考不等式约束的KT条件。下面给出一般约束最优性FJ条件和KT条件的表述。
定理11:(Fritz John) 在约束最优化问题(1)中,设
x∗
是局部最优解,
f(x)
,
s1(x),s2(x),...,sm(x);h1(x),h2(x),...,hl(x)
在点
x∗
处可微。那么,存在不全为零的实数
μ0,μ1,...,μm;λ1,λ2,...,λl
,使得
定理12:(Kuhn-Tucker) 在约束最优化问题(1)中,假设:i) x∗ 是局部最优点;ii) f(x),s1(x),s2(x),...,sm(x);h1(x),h2(x),...,hl(x) 在点 x∗ 处可微;iii)点 x∗ 处全部起作用的约束线性无关。那么存在实数 μ0,μ1,...,μm ,使得