约束最优化方法 (一) 最优性条件

  之前讨论的是无约束最优化方法,这一节主要介绍的是带有约束的非线性规划问题,所谓的非线性规划,就是约束项含有平方这种。解这类问题有两种方法,一个是容许方向法、它是一种直接处理约束的方法;另一个是罚函数法,它是将约束问题转变成一系列无约束问题,用无约束的极小点去逐渐逼近约束问题的极小点。但是在介绍这两种方法之前,要先介绍一些概念。

最优性条件

  • 最优性条件
      最优性条件,就是最优化问题的目标函数与约束函数在最优点所满足的充分条件和必要条件。

  • 最优性必要条件
      最优性必要条件是指,最优点应该满足的条件。也就是已知其为最优点,能够推断出来的条件。

  • 最优性充分条件
      最优性充分条件是指,可使得某个容许点成为最优点的条件。也就是知道一些条件,能够推出其为最优点。

  本节主要讨论一般约束问题的最优性条件。我们将先从仅含等式约束或不等式约束的问题入手,然后自然过渡到一般约束问题。所以这一节主要介绍各种约束下的最优性条件,也就是各种约束下,什么样的条件能够推出这个点是最优点、另外一种,已知各种约束下的最优点,能够推出什么条件。整体目录结构如下:

  • 等式约束问题的最优性条件
  • 不等式约束问题的最优性条件
    • 几何最优性条件
    • Fritz John条件
    • Kuhn-Tucker条件
  • 一般约束问题的最优性条件

等式约束问题的最优性条件

  考虑仅含等式约束的问题1
min ⁡ f ( x ) s.t.  h j ( x ) = 0 , j = 1 , 2 , ⋯   , l . \begin{array}{l}{\min f(x)} \\ {\text {s.t. } h_{j}(x)=0, \quad j=1,2, \cdots, l .}\end{array} minf(x)s.t. hj(x)=0,j=1,2,,l.

  这个问题的最优性条件与求解方法在微积分中已从理论上得到了解决,这就是Lagrange定理和Lagrange乘子法。

定理1:假设

  • i) : x ∗ x^{*} x是上述约束问题的局部最优点;
  • ii) : f f f, h 1 h_{1} h1, h 2 h_{2} h2, ⋅ ⋅ ⋅ ··· ⋅⋅⋅, h l h_{l} hl R n → R 1 R^{n}\rightarrow R^{1} RnR1 x ∗ x^{*} x附近连续可微(有一阶连续偏导数)。
  • iii) : ▽ h 1 ( x ∗ ) \bigtriangledown h_{1}(x^{*}) h1(x) ▽ h 2 ( x ∗ ) \bigtriangledown h_{2}(x^{*}) h2(x) ⋅ ⋅ ⋅ ··· ⋅⋅⋅ ▽ h l ( x ∗ ) \bigtriangledown h_{l}(x^{*}) hl(x) 线性无关,则存在实数 λ 1 ∗ \lambda_{1}^{*} λ1 λ 2 ∗ \lambda_{2}^{*} λ2 ⋅ ⋅ ⋅ ··· ⋅⋅⋅ λ l ∗ \lambda_{l}^{*} λl使得:
    ∇ f ( x ∗ ) = ∑ j = 1 l λ j ∗ ∇ h j ( x ∗ ) \nabla f\left(x^{*}\right)=\sum_{j=1}^{l} \lambda_{j}^{*} \nabla h_{j}\left(x^{*}\right) f(x)=j=1lλjhj(x)

  这个定理的意义还在于,它把对等式约束问题的求解转化为对无约束问题的求解。

  上式是最优性一阶必要条件

定理2:在约束问题1中,假设:

  • i) : f f f, h 1 h_{1} h1, h 2 h_{2} h2, ⋅ ⋅ ⋅ ··· ⋅⋅⋅, h l h_{l} hl R n → R 1 R^{n} \rightarrow R^{1} RnR1是二次连续可微函数;
  • ii) : 存在 x ∗ ∈ R n x^{*} \in R^{n} xRn λ ∗ ∈ R l \lambda^{*} \in R^{l} λRl,使得Lagrange函数的梯度为零,即:
    ▽ L ( x ∗ , λ ∗ ) = 0 \bigtriangledown L(x^{*},\lambda^{*})=0 L(x,λ)=0
  • iii) : 对于满足条件:

v T ▽ h j ( x ∗ ) = 0 , j = 1 , 2 , ⋅ ⋅ ⋅ , l v^{T} \bigtriangledown h_{j}(x^{*})=0,j=1,2,···,l vThj(x)=0j=1,2,⋅⋅⋅l

  的任意非零向量 v ∈ R n v \in R^{n} vRn,都有:
v T ▽ x 2 L ( x ∗ , λ ∗ ) v > 0 v^{T} \bigtriangledown_{x}^{2}L(x^{*},\lambda^{*})v > 0 vTx2L(xλ)v>0

  这个定理的几何意义是,在Lagrange函数的驻点 [ x ∗    λ ∗ ] [x^{*} \ \ \lambda^{*}] [x  λ]处,如果Lagrange函数关于 x x x的Hesse矩阵在 l l l个约束(超)曲面的切平面的交集上正定(注意,并不需要在原来的空间中正定),那么 x ∗ x^{*} x就是严格局部极小点。

  这里就是直接给出两个定理,没办法,理解记忆吧。第一个定理相对来说比较重要一点。

不等式约束问题的最优性条件

几何最优性条件

  下面将给出约束问题2
min ⁡ f ( x ) s.t.  s i ( x ) ⩾ 0 , i = 1 , 2 , ⋯   , m . \begin{array}{l}{\min f(x)} \\ {\text {s.t. } s_{i}(x) \geqslant 0, \quad i=1,2, \cdots, m .}\end{array} minf(x)s.t. si(x)0,i=1,2,,m.
  的最优性条件。

定义1 :对于约束问题,设 x ‾ ∈ D \overline{x} \in D xD D = { x ∣ s i ( x ) ≥ 0 , i = 1 , 2 , ⋯   , m } D=\{x|s_{i}(x)\geq 0 , i =1,2, \cdots, m \} D={xsi(x)0,i=1,2,,m} x ‾ \overline{x} x 使得某个不等式约束有 s i ( x ‾ ) = 0 s_{i}(\overline{x})=0 si(x)=0,则该不等式约束 s i ( x ) ≥ 0 s_{i}(x) \geq 0 si(x)0称为是关于容许点 x ‾ \overline{x} x起作用约束;否者,若 s i ( x ‾ ) > 0 s_{i}(\overline{x}) > 0 si(x)>0,则该不等式约束称为是关于容许点的不起作用约束

定义2 :设 C C C R R R中的非空集,且 x ∈ C x \in C xC。对于 ∀ p ∈ R n \forall p \in R^{n} pRn,若当 x + p ∈ C x+p \in C x+pC时,对于 ∀ t ≥ 0 \forall t \geq 0 t0,必有 x + t p ∈ C x+tp \in C x+tpC,则集合 C C C称为 x x x为顶点的锥。若锥 C C C是凸集,则称为凸锥

定义3 :设 D D D R n R^{n} Rn中的非空集,且 x ∈ D x \in D xD。对于非零向量 p ∈ R n p \in R^{n} pRn,若存在 δ > 0 \delta > 0 δ>0,当 t ∈ ( 0 , δ ) t \in (0, \delta) t(0,δ)时,必有 x + t p ∈ D x+tp \in D x+tpD,则 p p p称为点 x x x容许方向向量,其方向称为点 x x x容许方向。由点 x x x的全部容许方向向量构成的集合称为点 x x x容许方向集,或者说容许方向锥
如图所示
引理 :设 x ‾ ∈ D = { x ∣ s i ( x ) ≥ 0 , i = 1 , 2 , ⋯   , m } \overline{x} \in D = \{x|s_{i}(x) \geq 0, i =1,2, \cdots , m\} xD={xsi(x)0,i=1,2,,m} I = { i ∣ s i ( x ‾ ) = 0 , i = 1 , 2 , ⋯   , m } I=\{i|s_{i}(\overline{x})=0,i=1,2, \cdots, m\} I={isi(x)=0,i=1,2,,m};并设当 i ∈ I i \in I iI时, s i ( x ) s_{i}(x) si(x)在点 x ~ \widetilde{x} x 处可微,当 i ∈ I ‾ \overline{i \in I} iI时, s i ( x ) s_{i}(x) si(x)在点 x ~ \widetilde{x} x 处连续。若对于所有的 i ∈ I i \in I iI,向量 p p p都使得 ▽ s i ( x ~ ) T p > 0 \bigtriangledown_{s_{i}}(\widetilde{x})^{T}p >0 si(x )Tp>0,则 p p p是点 x ~ \widetilde{x} x 的一个容许方向。

  约束曲面 s i ( x ) = 0 s_{i}(x)=0 si(x)=0把整个空间分成两部分,梯度 ▽ s i ( x ~ ) \bigtriangledown_{s_{i}}(\widetilde{x}) si(x )总是指向包含容许集的那一侧。

  把由点 x x x的所有下降方向向量构成的集合称为点 x x x下降方向锥

定理:设 f : R n → R 1 f:R^{n} \rightarrow R^{1} f:RnR1在点 x x x可微,则点 x x x处的下降方向向量 p p p必满足:
▽ f ( x ) T p < 0 \bigtriangledown f(x)^{T}p < 0 f(x)Tp<0

  记 S ( x ) = { p ∣ ▽ f ( x ) T p < 0 } S(x)=\{p|\bigtriangledown f(x)^{T}p < 0 \} S(x)={pf(x)Tp<0},则 S ( x ) S(x) S(x)是点 x x x处的下降方向集。显然 S ( x ) S(x) S(x) R n R^{n} Rn中的半空间。

  接下来就是几何最优性条件的定义:(因为这个条件是仅借助点集的概念给出的,所以称为几何最优性条件):

定理: 在约束问题2中,若 x ∗ x^{*} x是局部最优点,则点 x ∗ x^{*} x处的容许方向锥下降方向锥的交集是空集。

  上面这个定理仅仅是必要的,而不是充分的。也就是说知道这个点是最优点能够推断出容许方向锥和下降方向锥的交集是空集,但由容许方向锥和下降方向锥的交集是空集并不能推断出其是最优点。

Fritz John条件

  这里要介绍:引理(Farkas)、引理(Gordan)、定理:Fritz John

引理(Farkas):设 a 1 a_{1} a1 a 2 a_{2} a2 ⋯ \cdots a m a_{m} am b b b n n n维向量,则满足:
a i T p ≥ 0 ,   i = 1 , 2 , ⋯   , m a_{i}^{T}p \geq 0, \ i=1,2,\cdots , m aiTp0, i=1,2,,m
  的向量 p p p也满足
b T p ≥ 0 b^{T}p \geq 0 bTp0
  的充要条件是,存在非负数 γ 1 \gamma_{1} γ1 γ 2 \gamma_{2} γ2 ⋯ \cdots γ n \gamma_{n} γn,使得:
b = ∑ i = 1 m γ i a i b=\sum_{i=1}^{m}\gamma_{i}a_{i} b=i=1mγiai

  这个依旧不需要证明,相信它就完事了,因为直观上感觉就是非常正确的。可以看课本图4-6。或者下面这张图理解( b b b理解为 f ( x ∗ ) f(x^{*}) f(x)):

引理(Gordan):设 a 1 a_{1} a1 a 2 a_{2} a2 ⋯ \cdots a m a_{m} am n n n维向量,则不存在向量 p p p使得:
a i T p < 0 ,    i = 1 , 2 , ⋯   , m a_{i}^{T}p<0, \ \ i=1,2, \cdots,m aiTp<0,  i=1,2,,m
  成立的充要条件是,存在不全为零的非负数 γ 1 \gamma_{1} γ1 γ 2 \gamma_{2} γ2 ⋯ \cdots γ n \gamma_{n} γn,使得:
∑ i = 1 m γ i a i = 0 \sum_{i=1}^{m}\gamma_{i}a_{i}=0 i=1mγiai=0
  这个怎么理解呢?不存在向量 p p p使得 a i T p < 0 ,    i = 1 , 2 , ⋯   , m a_{i}^{T}p<0, \ \ i=1,2, \cdots,m aiTp<0,  i=1,2,,m,所表示的几何意义就是 a 1 a_{1} a1 a 2 a_{2} a2 ⋯ \cdots a m a_{m} am不会在超平面的一侧,因为要是在一侧的话,就会存在这样一个向量 p p p满足要求。既然不会在一侧,那么就一定会有一个非零的线性组合,使其最终结果为0。

定理:Fritz John: 在问题2中,设 x ∗ x^{*} x是局部最优解, f ( x ) f(x) f(x) s 1 ( x ) s_{1}(x) s1(x) s 2 ( x ) s_{2}(x) s2(x) ⋯ \cdots s m ( x ) s_{m}(x) sm(x)在点 x ∗ x^{*} x处可微,那么,存在不全为零的实数 μ 0 \mu_{0} μ0 μ 1 \mu_{1} μ1 ⋯ \cdots μ m \mu_{m} μm使得:
μ 0 ∇ f ( x ∗ ) − ∑ i = 1 m μ i ∇ s i ( x ∗ ) = 0 μ i s i ( x ∗ ) = 0 ,     i = 1 , 2 , ⋯   , m μ i ≥ 0 ,     i = 0 , 1 , ⋯   , m } \left.\begin{array}{rl}{\mu_{0} \nabla f\left(x^{*}\right)-\sum_{i=1}^{m} \mu_{i} \nabla s_{i}\left(x^{*}\right)} {=0} \\ {\mu_{i} s_{i}\left(x^{*}\right)=0,} {\ \ \ i=1,2, \cdots, m} \\ {\mu_{i} \geq 0,} {\ \ \ i=0,1, \cdots, m}\end{array}\right\} μ0f(x)i=1mμisi(x)=0μisi(x)=0,   i=1,2,,mμi0,   i=0,1,,m

  上面这个式子我们来理解一下,因为这个 x ∗ x^{*} x是最优点,所以这个容许集和下降方向集是空集。所以不存在向量 p p p,使得:
∇ f ( x ∗ ) T p < 0 , ( − ∇ s i ( x ∗ ) ) T p < 0 , i ∈ I ( x ∗ ) \nabla f\left(x^{*}\right)^{T} p<0, \\ \left(-\nabla s_{i}\left(x^{*}\right)\right)^{T} p<0, i \in I\left(x^{*}\right) f(x)Tp<0,(si(x))Tp<0,iI(x)

   μ i s i ( x ∗ ) = 0   ( i = 1 , 2 , ⋯   , m ) \mu_{i}s_{i}(x^{*})=0\ (i=1,2,\cdots ,m) μisi(x)=0 (i=1,2,,m)称为互补松弛条件。它表明:若 s i ( x ∗ ) > 0 s_{i}(x^{*})>0 si(x)>0,即 i ∈ ‾ I i \overline{\in} I iI,则必有 μ i = 0 \mu_{i}=0 μi=0;若 μ i > 0 \mu_{i}>0 μi>0,则必有 s i ( x ∗ ) = 0 s_{i}(x^{*})=0 si(x)=0,即 i ∈ I i \in I iI

  这个定理给你了问题2的一个最优性必要条件。上式称为Fritz John条件,满足Fritz-John条件的点称为Fritz-John点 μ 1 \mu_{1} μ1 μ 2 \mu_{2} μ2 ⋯ \cdots μ m \mu_{m} μm也称为Lagrange乘子。

  Fritz-John条件仅是判别某一容许点是否为最优点的必要条件,而不是充分条件。

Kuhn-Tucker条件

  如果Fritz-John条件中 μ 0 = 0 \mu_{0}=0 μ0=0时,Fritz-John条件失去实用价值。为了使得其大于0,就有了Kuhn-Tucker条件。

定理:Kuhn-Tucker:

在问题2中,假设
i) x ∗ x^{*} x是局部最优点;
ii) f ( x ) , s 1 ( x ) , s 2 ( x ) , ⋅ ⋅ ⋅ , s m ( x ) f(x),s_{1}(x),s_{2}(x),···,s_{m}(x) f(x),s1(x),s2(x),⋅⋅⋅sm(x)在点 x ∗ x^{*} x处可微;
iii) 点 x ∗ x^{*} x处的全部起作用约束的梯度线性无关。那么存在实数 μ 1 、 μ 2 , ⋅ ⋅ ⋅ , μ m \mu_{1}、\mu_{2},···,\mu_{m} μ1μ2⋅⋅⋅μm使得:
∇ f ( x ∗ ) − ∑ i = 1 m μ i ∇ s i ( x ∗ ) = 0 μ i S i ( x ∗ ) = 0 , i = 1 , 2 , ⋯   , m , μ i ≥ 0 , i = 1 , ⋯   , m \begin{aligned} \nabla f\left(x^{*}\right)-\sum_{i=1}^{m} \mu_{i} \nabla s_{i}\left(x^{*}\right) =&0 \\ \mu_{i} S_{i}\left(x^{*}\right)=0, i=1,2, \cdots, &m, \\ \mu_{i} \geq 0, i=1, \cdots, &m \end{aligned} f(x)i=1mμisi(x)=μiSi(x)=0,i=1,2,,μi0,i=1,,0m,m

  Kuhn-Tucker条件是Fritz John条件的特殊情况。

  Kuhn-Tucker条件有明显的几何意义。在Kuhn-Tucker定理的公式中,删去不起作用约束项(注意,它们的系数是 μ i = 0 \mu_{i}=0 μi=0,当 i ∈ ‾ I i \overline{\in}I iI,Kuhn-Tucker条件可简写成:存在 μ i ≥ 0 \mu_{i} \geq 0 μi0 i ∈ I i \in I iI)使得:
∇ f ( x ∗ ) = ∑ i ∈ I μ i ∇ s i ( x ∗ ) \nabla f(x^{*})=\sum_{i \in I}\mu_{i}\nabla_{s_{i}}(x^{*}) f(x)=iIμisi(x)

  此式在几何上表示:若 x ∗ x^{*} x是问题地最优解,根据Farkas引理可知,在此点处地目标函数地梯度必处在由起作用约束函数地梯度张成地凸锥之中。

一般约束问题的最优性条件

  之前是不等式约束,现在考虑一般约束问题地最优性条件,既有等式约束还有不等式约束的情况。我们这节就介绍一般约束问题下的Fritz-John定理Kuhn-Tucker定理

Fritz-John定理

  考虑问题:

min ⁡ f ( x ) s.t. s ( x ) ≥ 0 h ( x ) = 0 } \left.\begin{array}{ll}{\min } & {f(x)} \\ {\text {s.t.}} & {s(x) \geq 0} \\ {} & {h(x)=0}\end{array}\right\} mins.t.f(x)s(x)0h(x)=0

  在上述问题中设 x ∗ x^{*} x是局部最优点 f ( x ) f(x) f(x) s 1 ( x ) , ⋯   , s m ( x ) , h ( x ) , ⋯   , h l ( x ) s_{1}(x), \cdots ,s_{m}(x), h(x), \cdots ,h_{l}(x) s1(x),,sm(x),h(x),,hl(x)在点 x ∗ x^{*} x处可微。那么,存在不全为零的实数 μ 0 , μ 1 , ⋯   . μ m , λ 1 , λ 2 , ⋯ λ l \mu_{0},\mu_{1},\cdots .\mu_{m}, \lambda_{1},\lambda_{2},\cdots \lambda_{l} μ0,μ1,.μm,λ1,λ2,λl,使得:
μ 0 ∇ f ( x ∗ ) − ∑ i = 1 m μ i ∇ s i ( x ∗ ) − ∑ j = 1 l λ j ∇ h j ( x ∗ ) = 0 μ i S i ( x ∗ ) = 0 , i = 1 , 2 , ⋯   , m μ i ≥ 0 , i = 0 , 1 , ⋯   , m \begin{aligned} \mu_{0} \nabla f\left(x^{*}\right) &-\sum_{i=1}^{m} \mu_{i} \nabla s_{i}\left(x^{*}\right)-\sum_{j=1}^{l} \lambda_{j} \nabla h_{j}\left(x^{*}\right)=0 \\ \mu_{i} S_{i}\left(x^{*}\right) &=0, \quad i=1,2, \cdots, m \\ \mu_{i} & \geq 0, \quad i=0,1, \cdots, m \end{aligned} μ0f(x)μiSi(x)μii=1mμisi(x)j=1lλjhj(x)=0=0,i=1,2,,m0,i=0,1,,m

  这个定理可以看成是Lagrange定理的结论与Fritz-John定理的结论的合并。相当于多了 l l l个等式约束。

Kuhn-Tucker定理

  考虑问题:

min ⁡ f ( x ) s.t. s ( x ) ≥ 0 h ( x ) = 0 } \left.\begin{array}{ll}{\min } & {f(x)} \\ {\text {s.t.}} & {s(x) \geq 0} \\ {} & {h(x)=0}\end{array}\right\} mins.t.f(x)s(x)0h(x)=0

  假设:
  i) x ∗ x^{*} x是局部最优解;
  ii) f ( x ) , s 1 ( x ) , ⋯   , s m ( x ) , h 1 ( x ) , ⋯ , h l ( x ) f(x),s_{1}(x),\cdots , s_{m}(x),h_{1}(x),\cdots ,h_{l}(x) f(x)s1(x),sm(x)h1(x)hl(x)在点 x ∗ x^{*} x处可微;
  iii)点 x ∗ x^{*} x处的全部起作用约束的梯度线性无关。

那么存在实数 μ 0 , μ 1 , ⋯   . μ m , λ 1 , λ 2 , ⋯ λ l \mu_{0},\mu_{1},\cdots .\mu_{m}, \lambda_{1},\lambda_{2},\cdots \lambda_{l} μ0,μ1,.μm,λ1,λ2,λl使得:

∇ f ( x ∗ ) − ∑ i = 1 m μ i ∇ s i ( x ∗ ) − ∑ j = 1 l λ j ∇ h j ( x ∗ ) = 0 μ i S i ( x ∗ ) = 0 , i = 1 , 2 , ⋯   , m μ i ≥ 0 , i = 1 , ⋯   , m \begin{aligned} \nabla f\left(x^{*}\right)-\sum_{i=1}^{m} \mu_{i} \nabla s_{i}\left(x^{*}\right)-\sum_{j=1}^{l} \lambda_{j} \nabla h_{j}\left(x^{*}\right)=0 \\ \mu_{i} S_{i}\left(x^{*}\right)=0, \quad i=1,2, \cdots, m \\ \mu_{i} \geq 0, i=1, \cdots, m& \end{aligned} f(x)i=1mμisi(x)j=1lλjhj(x)=0μiSi(x)=0,i=1,2,,mμi0,i=1,,m

定理:
  在以下凸规划问题中:
min ⁡ f ( x ) s.t. s ( x ) ≥ 0 h ( x ) = 0 } \left.\begin{array}{ll}{\min } & {f(x)} \\ {\text {s.t.}} & {s(x) \geq 0} \\ {} & {h(x)=0}\end{array}\right\} mins.t.f(x)s(x)0h(x)=0
  假设 f f f是可微凸函数 s 1 , ⋯   , s m s_{1},\cdots ,s_{m} s1,sm是可微凹函数, h 1 , ⋯   , h l h_{1},\cdots ,h_{l} h1,hl是线性函数。若 x ∗ x^{*} x是上述问题的Kuhn-Tucker点,则 x ∗ x^{*} x就是上述问题的全局最优点。(用Hesson矩阵即可证明是不是凸优化问题)。

我的微信公众号名称:小小何先生
公众号介绍:主要研究分享深度学习、机器博弈、强化学习等相关内容!期待您的关注,欢迎一起学习交流进步!

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值