DY共轭梯度法

DY共轭梯度法

1、简介

2、DY共轭梯度法的框架和假定

3、DY共轭梯度法的收敛性证明

4、对 DY 共轭梯度法的进一步讨论

5、总结与参考文献



1、简介
   1952 年,HestenseStiefel 在求解线性方程组 AX=b 时提出了共轭梯度法,我们称为线性共轭梯度法。1964 年,FletcherReeves 将共轭梯度法应用到求解二次函数的局部极小点问题中,这通常被认为是求解无约束优化问题的非线性共轭梯度法的开端。共轭梯度法由于只是需要一阶导数信息,所以具有存贮量小的特点,适合求解大型无约束无约束优化问题。
   对于无约束优化问题
min ⁡ x ∈ R n   f ( x ) (1) \min_{x\in\mathbb{R}^n}~f(x)\tag{1} xRnmin f(x)(1)
其中   f ( x ) : R n → R   ~f(x):\mathbb{R}^n\rightarrow\mathbb{R}~  f(x):RnR 是连续可微函数,其梯度函数记为   g ( x ) : R → R n   ~g(x):\mathbb{R}\rightarrow\mathbb{R}^n~  g(x):RRn .。其一般的迭代格式为:
x k + 1 = x k + α k d k (2) x_{k+1}=x_k+\alpha_k d_k\tag{2} xk+1=xk+αkdk(2),
d k = { − g k , k = 1 , − g k + β k d k , k ≥ 2 , (3) d_k=\begin{cases} -g_k,\quad & k=1,\\ -g_k+\beta_k d_k, &k\ge 2,\end{cases}\tag{3} dk={gk,gk+βkdk,k=1,k2,(3)
其中   g k   ~g_k~  gk 是迭代点   x k   ~x_k~  xk 处的梯度,   α k   ~\alpha_k~  αk 是搜素步长,   d k   ~d_k~  dk 是搜素方向,   β k   ~\beta_k~  βk 为共轭参数。
   不同的参数   β k   ~\beta_k~  βk 决定不同的共轭梯度法,本文想说明的是   D Y   ~DY~  DY 算法,其他算法便不在此处列出。
β k D Y = ∥ g k ∥ 2 d k − 1 ( g k − g k − 1 ) (4) \beta_k^{DY}=\frac{\Vert g_k\Vert^2}{d_{k-1}(g_k-g_{k-1})}\tag{4} βkDY=dk1(gkgk1)gk2(4)
   决定步长   α k   ~\alpha_k~  αk 的线搜索此处仅给出两种
   标准 Wolfe 线搜索
f ( x k + α k d k ) ≤ f ( x k ) + ρ α k d k (5) f(x_k+\alpha_k d_k)\le f(x_k)+\rho\alpha_k d_k\tag{5} f(xk+αkdk)f(xk)+ραkdk(5)
g ( x k + α k d k ) T d k ≥ σ g k d k (6) g(x_k+\alpha_k d_k)^Td_k\ge\sigma g_k d_k\tag{6} g(xk+αkdk)Tdkσgkdk(6)
   强 Wolfe 线搜索
f ( x k + α k d k ) ≤ f ( x k ) + ρ α k d k (7) f(x_k+\alpha_k d_k)\le f(x_k)+\rho\alpha_k d_k\tag{7} f(xk+αkdk)f(xk)+ραkdk(7)
∣ g ( x k + α k d k ) T d k ∣ ≤ − σ g k d k (8) \vert g(x_k+\alpha_k d_k)^Td_k\vert\le-\sigma g_k d_k\tag{8} g(xk+αkdk)Tdkσgkdk(8)
其中   0 < ρ < σ < 1   ~0<\rho<\sigma<1~  0<ρ<σ<1 .


2、DY 共轭梯度法的框架和假定
  基于公式(2),(3),(4)和标准 Wolfe 线搜索 (5) 和 (6),给出 DY 共轭梯度法的算法框架.
DY 共轭梯度法
步1:给定初始点   x 1 ∈ R n   ~x_1\in\mathbb{R}^n~  x1Rn  ∀   ϵ > 0 \forall~\epsilon>0  ϵ>0   0 < ρ < σ < 1   ~0<\rho<\sigma<1~  0<ρ<σ<1 ,令   d 1 = − g 1 ~d_1=-g_1  d1=g1   k : = 1   ~k:=1~  k:=1 ,若   g 1 < ϵ   ~g_1<\epsilon~  g1<ϵ ,终止.
步2:由标准 Wolfe 线搜索 (5) 和 (6) 计算步长因子   α k   ~\alpha_k~  αk .
步3:迭代计算   x k + 1 = x k + α k d k   ~x_{k+1}=x_k+\alpha_k d_k~  xk+1=xk+αkdk    g k + 1 : = g ( x k + 1 )   ~g_{k+1}:=g(x_{k+1})~  gk+1:=g(xk+1) ,若   ∥ g k + 1 ∥ ≤ ϵ   ~\Vert g_{k+1}\Vert\le\epsilon~  gk+1ϵ ,终止.
步4:令   k : = k + 1   ~k:=k+1~  k:=k+1 ,转步2.

假定:(1) 函数   f ( x )   ~f(x)~  f(x) 在水平集   Ω = { x ∈ R n : f ( x ) ≤ f ( x 1 ) }   ~\varOmega=\left\{x\in\mathbb{R}^n:f(x)\le f(x_1)\right\}~  Ω={xRn:f(x)f(x1)} 上有下界.

(2) 在水平集   Ω   ~\varOmega~  Ω 的某个邻域   N   ~N~  N 上,   f ( x )   ~f(x)~  f(x) 的梯度函数   g ( x )   ~g(x)~  g(x)    L i p s c h i t z   ~Lipschitz~  Lipschitz 连续,存在常数   L > 0   ~L>0~  L>0 ,使得
∥ g ( x ) − g ( y ) ∥ ≤ L ∥ x − y ∥ ,     ∀   x , y ∈ N (9) \Vert g(x)-g(y)\Vert\le L \Vert x-y\Vert,~~~\forall~x,y\in N\tag{9} g(x)g(y)Lxy,    x,yN(9)

2、DY共轭梯度法的收敛性证明
定理1: 设目标函数   f ( x )   ~f(x)~  f(x) 有下界,梯度函数   g ( x )   ~g(x)~  g(x) 满足   L i p s c h i t z   ~Lipschitz~  Lipschitz 连续,考虑一般方法   x k + 1 = x k + α k d k   ~x_{k+1}=x_k+\alpha_k d_k~  xk+1=xk+αkdk ,其中   d k   ~d_k~  dk 满足   g k T d k < 0   ~g_k^T d_k<0~  gkTdk<0 ,步长因子   α k   ~\alpha_k~  αk 满足 (5) 和 (6),则有
∑ k ≥ 1 ( g k T d k ) 2 ∥ d k ∥ 2 < + ∞ (10) \sum_{k\ge 1}\frac{(g_k^T d_k)^2}{\Vert d_k\Vert^2}<+\infty\tag{10} k1dk2(gkTdk)2<+(10)
证明: 由 (6) 可知
( g k + 1 − g k ) T d k ≥ ( σ − 1 ) g T d k (g_{k+1}-g_k)^Td_k\ge (\sigma-1)g^T d_k (gk+1gk)Tdk(σ1)gTdk
另一方面,由 Lipchitz 条件 (9) 有
( g k + 1 − g k ) T d k ≤ ∥ g k + 1 − g k ∥ ∥ d k ∥ ≤ α k L ∥ d k ∥ 2 (g_{k+1}-g_k)^T d_k\le\Vert g_{k+1}-g_k\Vert\Vert d_k\Vert\le\alpha_kL\Vert d_k\Vert^2 (gk+1gk)Tdkgk+1gk∥∥dkαkLdk2
利用上面两式得
α k ≥ σ − 1 L g k T d k ∥ d k ∥ 2 \alpha_k\ge\frac{\sigma-1}{L}\frac{g_k^Td_k}{\Vert d_k\Vert^2} αkLσ1dk2gkTdk
由上式和 (5) 式得
f k − f k + 1 ≥ c ( g k T d k ) 2 ∥ d k ∥ 2 f_k-f_{k+1}\ge c\frac{(g_k^Td_k)^2}{\Vert d_k\Vert^2} fkfk+1cdk2(gkTdk)2
其中   c = ρ ( 1 − σ ) L   ~c=\frac{\rho(1-\sigma)}{L}~  c=Lρ(1σ) ,对上式从   k = 1 , 2 , …   ~k=1,2,\dots~  k=1,2, 求和, 并利用 f ( x ) f(x) f(x) 有下界,则命题成立。
:关系式 (10) 也被称为 Z o u t e n d i j k Zoutendijk Zoutendijk 条件.


定理2:考虑方法 (2) 和 (3),其中   β k   ~\beta_k~  βk    ( 4 )   ~(4)~  (4)  计算,   α k   ~\alpha_k~  αk 满足 (5) 和 (6),则或者   g k = 0   ~g_k=0~  gk=0 对某   k   ~k~  k 成立,或者
g k T d k < 0 ,     ∀ k > 1 (11) g_k^T d_k<0,~~~\forall k>1\tag{11} gkTdk<0,   k>1(11)
证明: 假设对所有的   k ≥ 1   ~k\ge 1~  k1 ,均有
∥ g k ∥ > 0 \Vert g_k\Vert>0 gk>0
  k ≥ 2   ~k\ge 2~  k2 时,   d k = − g k + β k D Y d k − 1   ~d_k=-g_k+\beta_k^{DY}d_{k-1}~  dk=gk+βkDYdk1 ,两端与   g k   ~g_k~  gk 做内积。
g k T d k = − ∥ g k ∥ 2 + β k D Y g k T d k − 1 = ∥ g k ∥ 2 g k − 1 T d k − 1 d k − 1 T ( g k − g k − 1 ) = β k D Y g k − 1 T d k − 1 (12) g_k^T d_k=-\Vert g_k\Vert^2+\beta_k^{DY}g_k^T d_{k-1}=\Vert g_k\Vert^2\frac{g_{k-1}^T d_{k-1}}{d_{k-1}^T(g_k-g_{k-1})}=\beta_k^{DY}g_{k-1}^T d_{k-1}\tag{12} gkTdk=gk2+βkDYgkTdk1=gk2dk1T(gkgk1)gk1Tdk1=βkDYgk1Tdk1(12)
因为   d 1 = − g 1   ~d_1=-g_1~  d1=g1  ( 11 ) (11) (11)显然对   k = 1   ~k=1~  k=1 成立。假设   g k − 1 T d k − 1 < 0   ~g_{k-1}^Td_{k-1}<0~  gk1Tdk1<0 ,由 (6)式可知, d k − 1 T ( g k − g k − 1 ) > 0 d_{k-1}^T(g_k-g_{k-1})>0 dk1T(gkgk1)>0,故 β k D Y > 0 \beta_k^{DY}>0 βkDY>0
由假设,可知   g k T d k < 0   ~g_k^T d_k<0~  gkTdk<0 ,利用数学归纳法,则 (11) 成立。
注:(1) 表明 DY 共轭梯度法可以保证每个迭代点的满足   g k T d k < 0   ~g_k^T d_k<0~  gkTdk<0 ,也即 d k d_k dk f ( x ) f(x) f(x)   x k   ~x_k~  xk 处的下降方向
  (2) 我们可有式 (12) 知   β k D Y = g k T d k g k − 1 T d k − 1   ~\beta_k^{DY}=\frac{g_k^T d_k}{g_{k-1}^T d_{k-1}}~  βkDY=gk1Tdk1gkTdk ,在收敛性证明中这是非常重要的。


定理3:设目标函数   f ( x )   ~f(x)~  f(x) 有下界,梯度   g ( x )   ~g(x)~  g(x)  L i p c h i t z Lipchitz Lipchitz 连续的,考虑方法   ( 2 )   ~(2)~  (2)    ( 3 )   ~(3)~  (3) ,其中   β k   ~\beta_k~  βk    ( 4 )   ~(4)~  (4) 计算,步长   α k   ~\alpha_k~  αk 选择标准 Wolfe 线搜索   ( 5 )   ~(5)~  (5)    ( 6 )   ~(6)~  (6) ,则或者   g k = 0   ~g_k=0~  gk=0 对某个   k   ~k~  k 成立,或者
lim ⁡ k → ∞ inf ⁡ ∥ g k ∥ = 0 \lim_{k\rightarrow\infty}\inf\Vert g_k\Vert=0 kliminfgk=0
证明: 用反证法,假设结论不真,则必存在   γ > 0   ~\gamma>0~  γ>0 ,使得
∥ g k ∥ ≥ γ (13) \Vert g_k\Vert\ge\gamma\tag{13} gkγ(13)
由定理 2 可知,DY 共轭梯度法的每一个搜索方向必为下降方向,故定理 1 中的 Zoutendijk 条件是成立的。
  k ≥ 2   ~k\ge 2~  k2 时,   d k + g k = β k d k − 1   ~d_k+g_k=\beta_k d_{k-1}~  dk+gk=βkdk1 ,两端取模平方并移项,可得
∥ d k ∥ 2 = β k 2 ∥ d k − 1 ∥ 2 − 2 g k T d k − ∥ g k ∥ 2 \Vert d_k\Vert^2=\beta_k^2\Vert d_{k-1}\Vert^2-2g_k^Td_k-\Vert g_k\Vert^2 dk2=βk2dk122gkTdkgk2
将上式除以   ( g k T d k ) 2   ~(g_k^T d_k)^2~  (gkTdk)2 ,并利用   ( 12 )   ~(12)~  (12) 
∥ d k ∥ 2 ( g k T d k ) 2 = ∥ d k − 1 ∥ 2 ( g k − 1 T d k − 1 ) − 2 g k T d k − ∥ g k ∥ 2 ( g k T d k ) 2 = ∥ d k − 1 ∥ 2 ( g k − 1 T d k − 1 ) 2 − ( ∥ g k ∥ g k T d k + 1 ∥ g k ∥ ) 2 + 1 ∥ g k ∥ 2 ≤ ∥ d k − 1 ∥ 2 ( g k − 1 T d k − 1 ) 2 + 1 ∥ g k ∥ 2 \begin{aligned} \frac{\Vert d_k\Vert^2}{(g_k^T d_k)^2}&=\frac{\Vert d_{k-1}\Vert^2}{(g_{k-1}^Td_{k-1})}-\frac{2}{g_k^T d_k}-\frac{\Vert g_k\Vert^2}{(g_k^T d_k)^2}\\ &=\frac{\Vert d_{k-1}\Vert^2}{(g_{k-1}^Td_{k-1})^2}-(\frac{\Vert g_k\Vert}{g_k^T d_k}+\frac{1}{\Vert g_k\Vert})^2+\frac{1}{\Vert g_k\Vert^2}\\ &\le\frac{\Vert d_{k-1}\Vert^2}{(g_{k-1}^Td_{k-1})^2}+\frac{1}{\Vert g_k\Vert^2} \end{aligned} (gkTdk)2dk2=(gk1Tdk1)dk12gkTdk2(gkTdk)2gk2=(gk1Tdk1)2dk12(gkTdkgk+gk1)2+gk21(gk1Tdk1)2dk12+gk21
由于   ∥ d 1 ∥ 2 ( g 1 T d 1 ) 2 = 1 ∥ g 1 ∥ 2   ~\frac{\Vert d_1\Vert^2}{(g_1^T d_1)^2}=\frac{1}{\Vert g_1\Vert^2}~  (g1Td1)2d12=g121 ,根据上式递推,则有
∥ d k ∥ 2 ( g k T d k ) 2 ≤ ∑ i = 1 k 1 ∥ g i ∥ 2 \frac{\Vert d_k\Vert^2}{(g_k^T d_k)^2}\le\sum_{i=1}^k\frac{1}{\Vert g_i\Vert^2} (gkTdk)2dk2i=1kgi21
  ( 13 )   ~(13)~  (13) 式,则有
∥ d k ∥ 2 ( g k T d k ) 2 ≤ k γ 2 \frac{\Vert d_k\Vert^2}{(g_k^T d_k)^2}\le\frac{k}{\gamma^2} (gkTdk)2dk2γ2k
从而
∑ k ≥ 1 ( g k T d k ) 2 ∥ d k ∥ 2 ≥ ∑ k ≥ 1 γ 2 k = + ∞ \sum_{k\ge 1}\frac{(g_k^T d_k)^2}{\Vert d_k\Vert^2}\ge\sum_{k\ge1}\frac{\gamma^2}{k}=+\infty k1dk2(gkTdk)2k1kγ2=+
上式与 定理 1相矛盾,从而假设不成立,故命题得证。
注: 该定理表明 DY 共轭梯度法在寻常假定下是全局收敛的,当然这是一种弱收敛,但是对于共轭梯度法的收敛性要求,这种收敛是完全可以接受的。


4、对 DY 共轭梯度法的进一步讨论
   在 定理 2 中指出 DY 共轭梯度法的每一次搜索方向必是下降方向,即
g k T d k < 0 ,     ∀ k ≥ 1 (14) g_k^T d_k<0,~~~\forall k\ge 1\tag{14} gkTdk<0,   k1(14)
在很多算法中我们可能需要每一次搜索方向是充分下降的,即存在常数   c > 0   ~c>0~  c>0 ,使得
g k T d k ≤ − c ∥ g k ∥ 2 ,     ∀ k ≥ 1 (15) g_k^T d_k\le -c\Vert g_k\Vert^2,~~~\forall k\ge 1\tag{15} gkTdkcgk2,   k1(15)
显然算法具有充分下降性则一定具有下降性,我们在此给出两种情况可以保证 DY 共轭梯度法具有充分下降性。一种是线搜索的加强,一种是函数的加强。
(1)、DY 共轭梯度法在强 Wolfe 线搜索下具有充分下降性
  显然强 Wolfe 线搜索是标准 Wolfe 线搜索的特列,则 DY 共轭梯度法在标准 Wolfe 线搜索下具有下降性,则在强 Wolfe 线搜索下也一定具有下降性。因为
g k T d k ∥ g k ∥ 2 = g k − 1 T d k − 1 d k − 1 T ( g k − g k − 1 ) \frac{g_k^T d_k}{\Vert g_k\Vert^2}=\frac{g_{k-1}^T d_{k-1}}{d_{k-1}^T (g_k-g_{k-1})} gk2gkTdk=dk1T(gkgk1)gk1Tdk1
由强 Wolfe 线搜索   ( 8 )   ~(8)~  (8) 可知
d k − 1 T ( g k − g k − 1 ) ≤ − ( σ + 1 ) g k − 1 T d k − 1 d_{k-1}^T (g_k-g_{k-1})\le-(\sigma+1)g_{k-1}^T d_{k-1} dk1T(gkgk1)(σ+1)gk1Tdk1
利用   d k − 1 T ( g k − g k − 1 ) > 0   ~d_{k-1}^T(g_k-g_{k-1})>0~  dk1T(gkgk1)>0    g k − 1 T d k − 1 < 0   ~g_{k-1}^T d_{k-1}<0~  gk1Tdk1<0  以及上面两式,则有
g k T d k ∥ g k ∥ 2 ≤ − 1 1 + σ \frac{g_k^T d_k}{\Vert g_k\Vert^2}\le-\frac{1}{1+\sigma} gk2gkTdk1+σ1
故充分下降 ( 15 ) (15) (15) 式中的   c   ~c~  c 可取   c = 1 1 + σ   ~c=\frac{1}{1+\sigma}~  c=1+σ1 

(2),DY 共轭梯度法在一致凸函数时考虑某些线搜索可保证充分下降性
   在之前的文章我们已经介绍了凸集、凸函数、严格凸函数、一致凸函数(强凸函数)的定义,首先说明一下凸函数都是定义在凸集上。下面就简单说一下他们的定义

<1> 凸集
设集合   D ⊂ R n   ~D\subset\mathbb{R}^n~  DRn ,若对于任意的   x , y ∈ D   ~x,y\in D~  x,yD ,对任意的实数   α ∈ [ 0 , 1 ]   ~\alpha\in[0,1]~  α[0,1] ,都有   α x + ( 1 − α y ) ∈ D   ~\alpha x+(1-\alpha y)\in D~  αx+(1αy)D ,则称   D   ~D~  D 为凸集。

<2> 凸函数
设函数   f ( x )   ~f(x)~  f(x) 定义在凸集   D ∈ R n   ~D\in\mathbb{R}^n~  DRn 上。若对于任意   x , y ∈ D   ~x,y\in D~  x,yD ,及任意实数   α ∈ [ 0 , 1 ]   ~\alpha\in [0,1]~  α[0,1] ,都有
f ( α x + ( 1 − α ) y ) ≤ α f ( x ) + ( 1 − α ) f ( y ) f(\alpha x+(1-\alpha)y)\le\alpha f(x)+(1-\alpha)f(y) f(αx+(1α)y)αf(x)+(1α)f(y)

<3> 严格凸函数
设函数   f ( x )   ~f(x)~  f(x) 定义在凸集   D ∈ R n   ~D\in\mathbb{R}^n~  DRn 上。若对于任意   x , y ∈ D   ~x,y\in D~  x,yD  x ≠ y x\neq y x=y,及任意实数   α ∈ ( 0 , 1 )   ~\alpha\in (0,1)~  α(0,1) ,都有
f ( α x + ( 1 − α ) y ) < α f ( x ) + ( 1 − α ) f ( y ) f(\alpha x+(1-\alpha)y)<\alpha f(x)+(1-\alpha)f(y) f(αx+(1α)y)<αf(x)+(1α)f(y)

<4> 一致凸函数
设函数   f ( x )   ~f(x)~  f(x) 定义在凸集   D ∈ R n   ~D\in\mathbb{R}^n~  DRn 上。若存在常数   η > 0   ~\eta>0~  η>0 ,对任意   x , y ∈ D   ~x,y\in D~  x,yD ,及任意实数   α ∈ [ 0 , 1 ]   ~\alpha\in [0,1]~  α[0,1] ,都有
f ( α x + ( 1 − α ) y ) ≤ α f ( x ) + ( 1 − α ) f ( y ) − 1 2 α ( 1 − α ) η ∥ x − y ∥ 2 f(\alpha x+(1-\alpha)y)\le\alpha f(x)+(1-\alpha)f(y)-\frac{1}{2}\alpha(1-\alpha)\eta\Vert x-y\Vert^2 f(αx+(1α)y)αf(x)+(1α)f(y)21α(1α)ηxy2
注: 无论是凸函数,严格凸函数,一致凸函数都未要求函数是连续可微的,若   f ( x )   ~f(x)~  f(x) 是连续可微的,一致凸函数有如下等价表达,此处不给出证明,如果有兴趣,可以参考其他书籍。
f ( x ) ≥ f ( y ) + g ( y ) T ( x − y ) + 1 2 η ∥ x − y ∥ 2 (16) f(x)\ge f(y)+g(y)^T(x-y)+\frac{1}{2}\eta\Vert x-y\Vert^2\tag{16} f(x)f(y)+g(y)T(xy)+21ηxy2(16)
或者
( g ( y ) − g ( x ) ) T ( y − x ) ≥ η ∥ x − y ∥ 2 (17) (g(y)-g(x))^T(y-x)\ge\eta\Vert x-y\Vert^2\tag{17} (g(y)g(x))T(yx)ηxy2(17)

现在说明以下某些线搜索,比如仅仅需要标准 Wolfe 线搜索中的 (5) 而不需要 (6),或者其他的情况。主要两种如下情况
f ( x k + α k d k ) ≤ f ( x k ) + ρ α k d k (18) f(x_k+\alpha_kd_k)\le f(x_k)+\rho \alpha_k d_k\tag{18} f(xk+αkdk)f(xk)+ραkdk(18)
或者
f ( x k + α k d k ) ≤ f ( x k ) − ρ 2 α k 2 ∥ d k ∥ 2 (19) f(x_k+\alpha_k d_k)\le f(x_k)-\rho^2\alpha_k^2\Vert d_k\Vert^2\tag{19} f(xk+αkdk)f(xk)ρ2αk2dk2(19)
其中   ρ ∈ ( 0 , 1 )   ~\rho\in(0,1)~  ρ(0,1) .
<5> 若   f ( x )   ~f(x)~  f(x) 为强凸函数且线搜索有公式   ( 18 )   ~(18)~  (18) 的 DY 共轭梯度法满足充分下降性
由公式   ( 12 )   ~(12)~  (12) 可知
g k + 1 T d k + 1 ∥ g k + 1 ∥ 2 = g k T d k d k T ( g k + 1 − g k ) (20) \frac{g_{k+1}^T d_{k+1}}{\Vert g_{k+1}\Vert^2}=\frac{g_{k}^T d_{k}}{d_{k}^T(g_{k+1}-g_{k})}\tag{20} gk+12gk+1Tdk+1=dkT(gk+1gk)gkTdk(20)
   因为   f ( x )   ~f(x)~  f(x) 为一致凸函数,根据公式   ( 17 )   ~(17)~  (17) 必有   d k − 1 T ( g k − g k − 1 ) > 0   ~d_{k-1}^T(g_k-g_{k-1})>0~  dk1T(gkgk1)>0 ,其实这个性质,   f ( x )   ~f(x)~  f(x) 为严格凸函数也具有,是根据严格凸函数的等价定义   ( g ( y ) − g ( x ) ) T ( y − x ) ≥ 0   ~(g(y)-g(x))^T(y-x)\ge 0~  (g(y)g(x))T(yx)0 ,由此,我们可以利用数学归纳法,证明若函数   f ( x )   ~f(x)~  f(x) 为严格凸函数,则 DY 算法每次搜索方向必为下降方向,从而也可以得出 DY 共轭梯度法的收敛性,而且这种下降性和全局收敛性不依赖于任何线搜索。但是此处我们想讨论的是充分下降性,所以不能就此结束。

利用公式   ( 16 )   ~(16)~  (16) 我们有
f ( x k + α k d k ) − f ( x k ) ≥ α k g k T d k + 1 2 η α k 2 ∥ d k ∥ 2 f(x_k+\alpha_k d_k)-f(x_k)\ge \alpha_k g_k^T d_k+\frac{1}{2}\eta\alpha_k^2\Vert d_k\Vert^2 f(xk+αkdk)f(xk)αkgkTdk+21ηαk2dk2
结合公式   ( 18 )   ~(18)~  (18) 我们有
α k ≤ c 1 ∣ g k T d k ∣ ∥ d k ∥ 2 (21) \alpha_k\le c_1\frac{\vert g_k^T d_k\vert}{\Vert d_k\Vert^2}\tag{21} αkc1dk2gkTdk(21)
其中   c 1 = 2 ( 1 − ρ ) η   ~c_1=\frac{2(1-\rho)}{\eta}~  c1=η2(1ρ) 
根据梯度函数   L i p s c h i t z   ~Lipschitz~  Lipschitz 条件,我们有
∣ g k + 1 T d k − g k T d k ∣ ≤ ∥ g k + 1 − g k ∥ ∥ d k ∥ ≤ α k ∥ d k ∥ 2 (22) \vert g_{k+1}^T d_k-g_k^T d_k\vert\le\Vert g_{k+1}-g_k\Vert\Vert d_k\Vert\le\alpha_k\Vert d_k\Vert^2\tag{22} gk+1TdkgkTdkgk+1gk∥∥dkαkdk2(22)
利用   ( 20 )   ~(20)~  (20)    ( 21 )   ~(21)~  (21)    ( 22 )   ~(22)~  (22) ,则
g k + 1 T d k + 1 ∥ g k + 1 ∥ 2 = g k T d k d k T ( g k + 1 − g k ) ≤ g k T d k L α k ∥ d k ∥ 2 ≤ − 1 L c 1 (23) \frac{g_{k+1}^T d_{k+1}}{\Vert g_{k+1}\Vert^2}=\frac{g_k^T d_k}{d_k^T(g_{k+1}-g_k)}\le\frac{g_k^T d_k}{L\alpha_k\Vert d_k\Vert^2}\le-\frac{1}{L c_1}\tag{23} gk+12gk+1Tdk+1=dkT(gk+1gk)gkTdkLαkdk2gkTdkLc11(23)
故充分下降   ( 15 )   ~(15)~  (15) 中的   c   ~c~  c 可取   c = 1 L c 1   ~c=\frac{1}{Lc_1}~  c=Lc11 
<6> 若   f ( x )   ~f(x)~  f(x) 为强凸函数且线搜索有公式   ( 19 )   ~(19)~  (19) 的 DY 共轭梯度法满足充分下降性
此处证明过程基本与上相同,故在此简单说一下。
利用公式   ( 16 )   ~(16)~  (16) 我们有
f ( x k + α k d k ) − f ( x k ) ≥ α k g k T d k + 1 2 η α k 2 ∥ d k ∥ 2 f(x_k+\alpha_k d_k)-f(x_k)\ge \alpha_k g_k^T d_k+\frac{1}{2}\eta\alpha_k^2\Vert d_k\Vert^2 f(xk+αkdk)f(xk)αkgkTdk+21ηαk2dk2
结合公式   ( 19 )   ~(19)~  (19) 我们有
α k ≤ c 2 ∣ g k T d k ∣ ∥ d k ∥ 2 \alpha_k\le c_2\frac{\vert g_k^T d_k\vert}{\Vert d_k\Vert^2} αkc2dk2gkTdk
其中   c 2 = 1 1 2 η + ρ   ~c_2=\frac{1}{\frac{1}{2}\eta+\rho}~  c2=21η+ρ1 
后面与式   ( 23 )   ~(23)~  (23) 中完全一样,只是其中   c 1   ~c_1~  c1 换成   c 2   ~c_2~  c2 而已。

注:很多人可能觉得式 (18) 或者 (19)线搜索是否存在,此处我想说的是当然存在,比如有 Armijo 线搜索, 后面我可能会单独讲一下线搜索,此处不想过多讲述。

5、总结和参考文献
   这篇文章的内容主要讲述了三个方面:一、 DY 共轭梯度法在标准 Wolfe 线搜索下的全局收敛性。二、DY共轭梯度法在强 Wolfe 线搜索下具有充分下降性并且全局收敛性。三、DY 共轭梯度法在一致凸函数加以某些条件具有充分下降性。
   以上内容参考 袁亚湘戴彧虹老师的文章,对了 DY 共轭梯度法中 D 和 Y 便是他们名字的首字母,是八种经典共轭梯度法(DY,FR,CD,PRP,HS,LS,DL,HZ)的其中之一。

参考文献
[1] Dai Y H , Yuan Y. A Nonlinear Conjugate Gradient with a Strong Global Convergence Property, SIAM Journal of Optimization, 2000, 10: 177-182
[2] Dai Y H, Yuan Y. Some properties of a new conjugate gradient method, in: Yuan Y, ed. Advances in Nonlinear Programming, Boston: Kluwer, 1998, 251~262.

  • 1
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

多情剑客无情剑yu

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值