DY共轭梯度法
1、简介
2、DY共轭梯度法的框架和假定
3、DY共轭梯度法的收敛性证明
4、对 DY 共轭梯度法的进一步讨论
5、总结与参考文献
1、简介
1952 年,Hestense 和 Stiefel 在求解线性方程组 AX=b 时提出了共轭梯度法,我们称为线性共轭梯度法。1964 年,Fletcher 和 Reeves 将共轭梯度法应用到求解二次函数的局部极小点问题中,这通常被认为是求解无约束优化问题的非线性共轭梯度法的开端。共轭梯度法由于只是需要一阶导数信息,所以具有存贮量小的特点,适合求解大型无约束无约束优化问题。
对于无约束优化问题
min
x
∈
R
n
f
(
x
)
(1)
\min_{x\in\mathbb{R}^n}~f(x)\tag{1}
x∈Rnmin f(x)(1)
其中
f
(
x
)
:
R
n
→
R
~f(x):\mathbb{R}^n\rightarrow\mathbb{R}~
f(x):Rn→R 是连续可微函数,其梯度函数记为
g
(
x
)
:
R
→
R
n
~g(x):\mathbb{R}\rightarrow\mathbb{R}^n~
g(x):R→Rn .。其一般的迭代格式为:
x
k
+
1
=
x
k
+
α
k
d
k
(2)
x_{k+1}=x_k+\alpha_k d_k\tag{2}
xk+1=xk+αkdk(2),
d
k
=
{
−
g
k
,
k
=
1
,
−
g
k
+
β
k
d
k
,
k
≥
2
,
(3)
d_k=\begin{cases} -g_k,\quad & k=1,\\ -g_k+\beta_k d_k, &k\ge 2,\end{cases}\tag{3}
dk={−gk,−gk+βkdk,k=1,k≥2,(3)
其中
g
k
~g_k~
gk 是迭代点
x
k
~x_k~
xk 处的梯度,
α
k
~\alpha_k~
αk 是搜素步长,
d
k
~d_k~
dk 是搜素方向,
β
k
~\beta_k~
βk 为共轭参数。
不同的参数
β
k
~\beta_k~
βk 决定不同的共轭梯度法,本文想说明的是
D
Y
~DY~
DY 算法,其他算法便不在此处列出。
β
k
D
Y
=
∥
g
k
∥
2
d
k
−
1
(
g
k
−
g
k
−
1
)
(4)
\beta_k^{DY}=\frac{\Vert g_k\Vert^2}{d_{k-1}(g_k-g_{k-1})}\tag{4}
βkDY=dk−1(gk−gk−1)∥gk∥2(4)
决定步长
α
k
~\alpha_k~
αk 的线搜索此处仅给出两种
标准 Wolfe 线搜索
f
(
x
k
+
α
k
d
k
)
≤
f
(
x
k
)
+
ρ
α
k
d
k
(5)
f(x_k+\alpha_k d_k)\le f(x_k)+\rho\alpha_k d_k\tag{5}
f(xk+αkdk)≤f(xk)+ραkdk(5)
g
(
x
k
+
α
k
d
k
)
T
d
k
≥
σ
g
k
d
k
(6)
g(x_k+\alpha_k d_k)^Td_k\ge\sigma g_k d_k\tag{6}
g(xk+αkdk)Tdk≥σgkdk(6)
强 Wolfe 线搜索
f
(
x
k
+
α
k
d
k
)
≤
f
(
x
k
)
+
ρ
α
k
d
k
(7)
f(x_k+\alpha_k d_k)\le f(x_k)+\rho\alpha_k d_k\tag{7}
f(xk+αkdk)≤f(xk)+ραkdk(7)
∣
g
(
x
k
+
α
k
d
k
)
T
d
k
∣
≤
−
σ
g
k
d
k
(8)
\vert g(x_k+\alpha_k d_k)^Td_k\vert\le-\sigma g_k d_k\tag{8}
∣g(xk+αkdk)Tdk∣≤−σgkdk(8)
其中
0
<
ρ
<
σ
<
1
~0<\rho<\sigma<1~
0<ρ<σ<1 .
2、DY 共轭梯度法的框架和假定
基于公式(2),(3),(4)和标准 Wolfe 线搜索 (5) 和 (6),给出 DY 共轭梯度法的算法框架.
DY 共轭梯度法
步1:给定初始点
x
1
∈
R
n
~x_1\in\mathbb{R}^n~
x1∈Rn ,
∀
ϵ
>
0
\forall~\epsilon>0
∀ ϵ>0,
0
<
ρ
<
σ
<
1
~0<\rho<\sigma<1~
0<ρ<σ<1 ,令
d
1
=
−
g
1
~d_1=-g_1
d1=−g1,
k
:
=
1
~k:=1~
k:=1 ,若
g
1
<
ϵ
~g_1<\epsilon~
g1<ϵ ,终止.
步2:由标准 Wolfe 线搜索 (5) 和 (6) 计算步长因子
α
k
~\alpha_k~
αk .
步3:迭代计算
x
k
+
1
=
x
k
+
α
k
d
k
~x_{k+1}=x_k+\alpha_k d_k~
xk+1=xk+αkdk ,
g
k
+
1
:
=
g
(
x
k
+
1
)
~g_{k+1}:=g(x_{k+1})~
gk+1:=g(xk+1) ,若
∥
g
k
+
1
∥
≤
ϵ
~\Vert g_{k+1}\Vert\le\epsilon~
∥gk+1∥≤ϵ ,终止.
步4:令
k
:
=
k
+
1
~k:=k+1~
k:=k+1 ,转步2.
假定:(1) 函数
f
(
x
)
~f(x)~
f(x) 在水平集
Ω
=
{
x
∈
R
n
:
f
(
x
)
≤
f
(
x
1
)
}
~\varOmega=\left\{x\in\mathbb{R}^n:f(x)\le f(x_1)\right\}~
Ω={x∈Rn:f(x)≤f(x1)} 上有下界.
(2) 在水平集
Ω
~\varOmega~
Ω 的某个邻域
N
~N~
N 上,
f
(
x
)
~f(x)~
f(x) 的梯度函数
g
(
x
)
~g(x)~
g(x) 是
L
i
p
s
c
h
i
t
z
~Lipschitz~
Lipschitz 连续,存在常数
L
>
0
~L>0~
L>0 ,使得
∥
g
(
x
)
−
g
(
y
)
∥
≤
L
∥
x
−
y
∥
,
∀
x
,
y
∈
N
(9)
\Vert g(x)-g(y)\Vert\le L \Vert x-y\Vert,~~~\forall~x,y\in N\tag{9}
∥g(x)−g(y)∥≤L∥x−y∥, ∀ x,y∈N(9)
2、DY共轭梯度法的收敛性证明
定理1: 设目标函数
f
(
x
)
~f(x)~
f(x) 有下界,梯度函数
g
(
x
)
~g(x)~
g(x) 满足
L
i
p
s
c
h
i
t
z
~Lipschitz~
Lipschitz 连续,考虑一般方法
x
k
+
1
=
x
k
+
α
k
d
k
~x_{k+1}=x_k+\alpha_k d_k~
xk+1=xk+αkdk ,其中
d
k
~d_k~
dk 满足
g
k
T
d
k
<
0
~g_k^T d_k<0~
gkTdk<0 ,步长因子
α
k
~\alpha_k~
αk 满足 (5) 和 (6),则有
∑
k
≥
1
(
g
k
T
d
k
)
2
∥
d
k
∥
2
<
+
∞
(10)
\sum_{k\ge 1}\frac{(g_k^T d_k)^2}{\Vert d_k\Vert^2}<+\infty\tag{10}
k≥1∑∥dk∥2(gkTdk)2<+∞(10)
证明: 由 (6) 可知
(
g
k
+
1
−
g
k
)
T
d
k
≥
(
σ
−
1
)
g
T
d
k
(g_{k+1}-g_k)^Td_k\ge (\sigma-1)g^T d_k
(gk+1−gk)Tdk≥(σ−1)gTdk
另一方面,由 Lipchitz 条件 (9) 有
(
g
k
+
1
−
g
k
)
T
d
k
≤
∥
g
k
+
1
−
g
k
∥
∥
d
k
∥
≤
α
k
L
∥
d
k
∥
2
(g_{k+1}-g_k)^T d_k\le\Vert g_{k+1}-g_k\Vert\Vert d_k\Vert\le\alpha_kL\Vert d_k\Vert^2
(gk+1−gk)Tdk≤∥gk+1−gk∥∥dk∥≤αkL∥dk∥2
利用上面两式得
α
k
≥
σ
−
1
L
g
k
T
d
k
∥
d
k
∥
2
\alpha_k\ge\frac{\sigma-1}{L}\frac{g_k^Td_k}{\Vert d_k\Vert^2}
αk≥Lσ−1∥dk∥2gkTdk
由上式和 (5) 式得
f
k
−
f
k
+
1
≥
c
(
g
k
T
d
k
)
2
∥
d
k
∥
2
f_k-f_{k+1}\ge c\frac{(g_k^Td_k)^2}{\Vert d_k\Vert^2}
fk−fk+1≥c∥dk∥2(gkTdk)2
其中
c
=
ρ
(
1
−
σ
)
L
~c=\frac{\rho(1-\sigma)}{L}~
c=Lρ(1−σ) ,对上式从
k
=
1
,
2
,
…
~k=1,2,\dots~
k=1,2,… 求和, 并利用
f
(
x
)
f(x)
f(x) 有下界,则命题成立。
注:关系式 (10) 也被称为
Z
o
u
t
e
n
d
i
j
k
Zoutendijk
Zoutendijk 条件.
定理2:考虑方法 (2) 和 (3),其中
β
k
~\beta_k~
βk 按
(
4
)
~(4)~
(4) 计算,
α
k
~\alpha_k~
αk 满足 (5) 和 (6),则或者
g
k
=
0
~g_k=0~
gk=0 对某
k
~k~
k 成立,或者
g
k
T
d
k
<
0
,
∀
k
>
1
(11)
g_k^T d_k<0,~~~\forall k>1\tag{11}
gkTdk<0, ∀k>1(11)
证明: 假设对所有的
k
≥
1
~k\ge 1~
k≥1 ,均有
∥
g
k
∥
>
0
\Vert g_k\Vert>0
∥gk∥>0
当
k
≥
2
~k\ge 2~
k≥2 时,
d
k
=
−
g
k
+
β
k
D
Y
d
k
−
1
~d_k=-g_k+\beta_k^{DY}d_{k-1}~
dk=−gk+βkDYdk−1 ,两端与
g
k
~g_k~
gk 做内积。
g
k
T
d
k
=
−
∥
g
k
∥
2
+
β
k
D
Y
g
k
T
d
k
−
1
=
∥
g
k
∥
2
g
k
−
1
T
d
k
−
1
d
k
−
1
T
(
g
k
−
g
k
−
1
)
=
β
k
D
Y
g
k
−
1
T
d
k
−
1
(12)
g_k^T d_k=-\Vert g_k\Vert^2+\beta_k^{DY}g_k^T d_{k-1}=\Vert g_k\Vert^2\frac{g_{k-1}^T d_{k-1}}{d_{k-1}^T(g_k-g_{k-1})}=\beta_k^{DY}g_{k-1}^T d_{k-1}\tag{12}
gkTdk=−∥gk∥2+βkDYgkTdk−1=∥gk∥2dk−1T(gk−gk−1)gk−1Tdk−1=βkDYgk−1Tdk−1(12)
因为
d
1
=
−
g
1
~d_1=-g_1~
d1=−g1 ,
(
11
)
(11)
(11)显然对
k
=
1
~k=1~
k=1 成立。假设
g
k
−
1
T
d
k
−
1
<
0
~g_{k-1}^Td_{k-1}<0~
gk−1Tdk−1<0 ,由 (6)式可知,
d
k
−
1
T
(
g
k
−
g
k
−
1
)
>
0
d_{k-1}^T(g_k-g_{k-1})>0
dk−1T(gk−gk−1)>0,故
β
k
D
Y
>
0
\beta_k^{DY}>0
βkDY>0。
由假设,可知
g
k
T
d
k
<
0
~g_k^T d_k<0~
gkTdk<0 ,利用数学归纳法,则 (11) 成立。
注:(1) 表明 DY 共轭梯度法可以保证每个迭代点的满足
g
k
T
d
k
<
0
~g_k^T d_k<0~
gkTdk<0 ,也即
d
k
d_k
dk 为
f
(
x
)
f(x)
f(x) 在
x
k
~x_k~
xk 处的下降方向
(2) 我们可有式 (12) 知
β
k
D
Y
=
g
k
T
d
k
g
k
−
1
T
d
k
−
1
~\beta_k^{DY}=\frac{g_k^T d_k}{g_{k-1}^T d_{k-1}}~
βkDY=gk−1Tdk−1gkTdk ,在收敛性证明中这是非常重要的。
定理3:设目标函数
f
(
x
)
~f(x)~
f(x) 有下界,梯度
g
(
x
)
~g(x)~
g(x) 是
L
i
p
c
h
i
t
z
Lipchitz
Lipchitz 连续的,考虑方法
(
2
)
~(2)~
(2) 和
(
3
)
~(3)~
(3) ,其中
β
k
~\beta_k~
βk 按
(
4
)
~(4)~
(4) 计算,步长
α
k
~\alpha_k~
αk 选择标准 Wolfe 线搜索
(
5
)
~(5)~
(5) 和
(
6
)
~(6)~
(6) ,则或者
g
k
=
0
~g_k=0~
gk=0 对某个
k
~k~
k 成立,或者
lim
k
→
∞
inf
∥
g
k
∥
=
0
\lim_{k\rightarrow\infty}\inf\Vert g_k\Vert=0
k→∞liminf∥gk∥=0
证明: 用反证法,假设结论不真,则必存在
γ
>
0
~\gamma>0~
γ>0 ,使得
∥
g
k
∥
≥
γ
(13)
\Vert g_k\Vert\ge\gamma\tag{13}
∥gk∥≥γ(13)
由定理 2 可知,DY 共轭梯度法的每一个搜索方向必为下降方向,故定理 1 中的 Zoutendijk 条件是成立的。
当
k
≥
2
~k\ge 2~
k≥2 时,
d
k
+
g
k
=
β
k
d
k
−
1
~d_k+g_k=\beta_k d_{k-1}~
dk+gk=βkdk−1 ,两端取模平方并移项,可得
∥
d
k
∥
2
=
β
k
2
∥
d
k
−
1
∥
2
−
2
g
k
T
d
k
−
∥
g
k
∥
2
\Vert d_k\Vert^2=\beta_k^2\Vert d_{k-1}\Vert^2-2g_k^Td_k-\Vert g_k\Vert^2
∥dk∥2=βk2∥dk−1∥2−2gkTdk−∥gk∥2
将上式除以
(
g
k
T
d
k
)
2
~(g_k^T d_k)^2~
(gkTdk)2 ,并利用
(
12
)
~(12)~
(12) 得
∥
d
k
∥
2
(
g
k
T
d
k
)
2
=
∥
d
k
−
1
∥
2
(
g
k
−
1
T
d
k
−
1
)
−
2
g
k
T
d
k
−
∥
g
k
∥
2
(
g
k
T
d
k
)
2
=
∥
d
k
−
1
∥
2
(
g
k
−
1
T
d
k
−
1
)
2
−
(
∥
g
k
∥
g
k
T
d
k
+
1
∥
g
k
∥
)
2
+
1
∥
g
k
∥
2
≤
∥
d
k
−
1
∥
2
(
g
k
−
1
T
d
k
−
1
)
2
+
1
∥
g
k
∥
2
\begin{aligned} \frac{\Vert d_k\Vert^2}{(g_k^T d_k)^2}&=\frac{\Vert d_{k-1}\Vert^2}{(g_{k-1}^Td_{k-1})}-\frac{2}{g_k^T d_k}-\frac{\Vert g_k\Vert^2}{(g_k^T d_k)^2}\\ &=\frac{\Vert d_{k-1}\Vert^2}{(g_{k-1}^Td_{k-1})^2}-(\frac{\Vert g_k\Vert}{g_k^T d_k}+\frac{1}{\Vert g_k\Vert})^2+\frac{1}{\Vert g_k\Vert^2}\\ &\le\frac{\Vert d_{k-1}\Vert^2}{(g_{k-1}^Td_{k-1})^2}+\frac{1}{\Vert g_k\Vert^2} \end{aligned}
(gkTdk)2∥dk∥2=(gk−1Tdk−1)∥dk−1∥2−gkTdk2−(gkTdk)2∥gk∥2=(gk−1Tdk−1)2∥dk−1∥2−(gkTdk∥gk∥+∥gk∥1)2+∥gk∥21≤(gk−1Tdk−1)2∥dk−1∥2+∥gk∥21
由于
∥
d
1
∥
2
(
g
1
T
d
1
)
2
=
1
∥
g
1
∥
2
~\frac{\Vert d_1\Vert^2}{(g_1^T d_1)^2}=\frac{1}{\Vert g_1\Vert^2}~
(g1Td1)2∥d1∥2=∥g1∥21 ,根据上式递推,则有
∥
d
k
∥
2
(
g
k
T
d
k
)
2
≤
∑
i
=
1
k
1
∥
g
i
∥
2
\frac{\Vert d_k\Vert^2}{(g_k^T d_k)^2}\le\sum_{i=1}^k\frac{1}{\Vert g_i\Vert^2}
(gkTdk)2∥dk∥2≤i=1∑k∥gi∥21
由
(
13
)
~(13)~
(13) 式,则有
∥
d
k
∥
2
(
g
k
T
d
k
)
2
≤
k
γ
2
\frac{\Vert d_k\Vert^2}{(g_k^T d_k)^2}\le\frac{k}{\gamma^2}
(gkTdk)2∥dk∥2≤γ2k
从而
∑
k
≥
1
(
g
k
T
d
k
)
2
∥
d
k
∥
2
≥
∑
k
≥
1
γ
2
k
=
+
∞
\sum_{k\ge 1}\frac{(g_k^T d_k)^2}{\Vert d_k\Vert^2}\ge\sum_{k\ge1}\frac{\gamma^2}{k}=+\infty
k≥1∑∥dk∥2(gkTdk)2≥k≥1∑kγ2=+∞
上式与 定理 1相矛盾,从而假设不成立,故命题得证。
注: 该定理表明 DY 共轭梯度法在寻常假定下是全局收敛的,当然这是一种弱收敛,但是对于共轭梯度法的收敛性要求,这种收敛是完全可以接受的。
4、对 DY 共轭梯度法的进一步讨论
在 定理 2 中指出 DY 共轭梯度法的每一次搜索方向必是下降方向,即
g
k
T
d
k
<
0
,
∀
k
≥
1
(14)
g_k^T d_k<0,~~~\forall k\ge 1\tag{14}
gkTdk<0, ∀k≥1(14)
在很多算法中我们可能需要每一次搜索方向是充分下降的,即存在常数
c
>
0
~c>0~
c>0 ,使得
g
k
T
d
k
≤
−
c
∥
g
k
∥
2
,
∀
k
≥
1
(15)
g_k^T d_k\le -c\Vert g_k\Vert^2,~~~\forall k\ge 1\tag{15}
gkTdk≤−c∥gk∥2, ∀k≥1(15)
显然算法具有充分下降性则一定具有下降性,我们在此给出两种情况可以保证 DY 共轭梯度法具有充分下降性。一种是线搜索的加强,一种是函数的加强。
(1)、DY 共轭梯度法在强 Wolfe 线搜索下具有充分下降性
显然强 Wolfe 线搜索是标准 Wolfe 线搜索的特列,则 DY 共轭梯度法在标准 Wolfe 线搜索下具有下降性,则在强 Wolfe 线搜索下也一定具有下降性。因为
g
k
T
d
k
∥
g
k
∥
2
=
g
k
−
1
T
d
k
−
1
d
k
−
1
T
(
g
k
−
g
k
−
1
)
\frac{g_k^T d_k}{\Vert g_k\Vert^2}=\frac{g_{k-1}^T d_{k-1}}{d_{k-1}^T (g_k-g_{k-1})}
∥gk∥2gkTdk=dk−1T(gk−gk−1)gk−1Tdk−1
由强 Wolfe 线搜索
(
8
)
~(8)~
(8) 可知
d
k
−
1
T
(
g
k
−
g
k
−
1
)
≤
−
(
σ
+
1
)
g
k
−
1
T
d
k
−
1
d_{k-1}^T (g_k-g_{k-1})\le-(\sigma+1)g_{k-1}^T d_{k-1}
dk−1T(gk−gk−1)≤−(σ+1)gk−1Tdk−1
利用
d
k
−
1
T
(
g
k
−
g
k
−
1
)
>
0
~d_{k-1}^T(g_k-g_{k-1})>0~
dk−1T(gk−gk−1)>0 和
g
k
−
1
T
d
k
−
1
<
0
~g_{k-1}^T d_{k-1}<0~
gk−1Tdk−1<0 以及上面两式,则有
g
k
T
d
k
∥
g
k
∥
2
≤
−
1
1
+
σ
\frac{g_k^T d_k}{\Vert g_k\Vert^2}\le-\frac{1}{1+\sigma}
∥gk∥2gkTdk≤−1+σ1
故充分下降
(
15
)
(15)
(15) 式中的
c
~c~
c 可取
c
=
1
1
+
σ
~c=\frac{1}{1+\sigma}~
c=1+σ1
(2),DY 共轭梯度法在一致凸函数时考虑某些线搜索可保证充分下降性
在之前的文章我们已经介绍了凸集、凸函数、严格凸函数、一致凸函数(强凸函数)的定义,首先说明一下凸函数都是定义在凸集上。下面就简单说一下他们的定义
<1> 凸集
设集合
D
⊂
R
n
~D\subset\mathbb{R}^n~
D⊂Rn ,若对于任意的
x
,
y
∈
D
~x,y\in D~
x,y∈D ,对任意的实数
α
∈
[
0
,
1
]
~\alpha\in[0,1]~
α∈[0,1] ,都有
α
x
+
(
1
−
α
y
)
∈
D
~\alpha x+(1-\alpha y)\in D~
αx+(1−αy)∈D ,则称
D
~D~
D 为凸集。
<2> 凸函数
设函数
f
(
x
)
~f(x)~
f(x) 定义在凸集
D
∈
R
n
~D\in\mathbb{R}^n~
D∈Rn 上。若对于任意
x
,
y
∈
D
~x,y\in D~
x,y∈D ,及任意实数
α
∈
[
0
,
1
]
~\alpha\in [0,1]~
α∈[0,1] ,都有
f
(
α
x
+
(
1
−
α
)
y
)
≤
α
f
(
x
)
+
(
1
−
α
)
f
(
y
)
f(\alpha x+(1-\alpha)y)\le\alpha f(x)+(1-\alpha)f(y)
f(αx+(1−α)y)≤αf(x)+(1−α)f(y)
<3> 严格凸函数
设函数
f
(
x
)
~f(x)~
f(x) 定义在凸集
D
∈
R
n
~D\in\mathbb{R}^n~
D∈Rn 上。若对于任意
x
,
y
∈
D
~x,y\in D~
x,y∈D ,
x
≠
y
x\neq y
x=y,及任意实数
α
∈
(
0
,
1
)
~\alpha\in (0,1)~
α∈(0,1) ,都有
f
(
α
x
+
(
1
−
α
)
y
)
<
α
f
(
x
)
+
(
1
−
α
)
f
(
y
)
f(\alpha x+(1-\alpha)y)<\alpha f(x)+(1-\alpha)f(y)
f(αx+(1−α)y)<αf(x)+(1−α)f(y)
<4> 一致凸函数
设函数
f
(
x
)
~f(x)~
f(x) 定义在凸集
D
∈
R
n
~D\in\mathbb{R}^n~
D∈Rn 上。若存在常数
η
>
0
~\eta>0~
η>0 ,对任意
x
,
y
∈
D
~x,y\in D~
x,y∈D ,及任意实数
α
∈
[
0
,
1
]
~\alpha\in [0,1]~
α∈[0,1] ,都有
f
(
α
x
+
(
1
−
α
)
y
)
≤
α
f
(
x
)
+
(
1
−
α
)
f
(
y
)
−
1
2
α
(
1
−
α
)
η
∥
x
−
y
∥
2
f(\alpha x+(1-\alpha)y)\le\alpha f(x)+(1-\alpha)f(y)-\frac{1}{2}\alpha(1-\alpha)\eta\Vert x-y\Vert^2
f(αx+(1−α)y)≤αf(x)+(1−α)f(y)−21α(1−α)η∥x−y∥2
注: 无论是凸函数,严格凸函数,一致凸函数都未要求函数是连续可微的,若
f
(
x
)
~f(x)~
f(x) 是连续可微的,一致凸函数有如下等价表达,此处不给出证明,如果有兴趣,可以参考其他书籍。
f
(
x
)
≥
f
(
y
)
+
g
(
y
)
T
(
x
−
y
)
+
1
2
η
∥
x
−
y
∥
2
(16)
f(x)\ge f(y)+g(y)^T(x-y)+\frac{1}{2}\eta\Vert x-y\Vert^2\tag{16}
f(x)≥f(y)+g(y)T(x−y)+21η∥x−y∥2(16)
或者
(
g
(
y
)
−
g
(
x
)
)
T
(
y
−
x
)
≥
η
∥
x
−
y
∥
2
(17)
(g(y)-g(x))^T(y-x)\ge\eta\Vert x-y\Vert^2\tag{17}
(g(y)−g(x))T(y−x)≥η∥x−y∥2(17)
现在说明以下某些线搜索,比如仅仅需要标准 Wolfe 线搜索中的 (5) 而不需要 (6),或者其他的情况。主要两种如下情况
f
(
x
k
+
α
k
d
k
)
≤
f
(
x
k
)
+
ρ
α
k
d
k
(18)
f(x_k+\alpha_kd_k)\le f(x_k)+\rho \alpha_k d_k\tag{18}
f(xk+αkdk)≤f(xk)+ραkdk(18)
或者
f
(
x
k
+
α
k
d
k
)
≤
f
(
x
k
)
−
ρ
2
α
k
2
∥
d
k
∥
2
(19)
f(x_k+\alpha_k d_k)\le f(x_k)-\rho^2\alpha_k^2\Vert d_k\Vert^2\tag{19}
f(xk+αkdk)≤f(xk)−ρ2αk2∥dk∥2(19)
其中
ρ
∈
(
0
,
1
)
~\rho\in(0,1)~
ρ∈(0,1) .
<5> 若
f
(
x
)
~f(x)~
f(x) 为强凸函数且线搜索有公式
(
18
)
~(18)~
(18) 的 DY 共轭梯度法满足充分下降性
由公式
(
12
)
~(12)~
(12) 可知
g
k
+
1
T
d
k
+
1
∥
g
k
+
1
∥
2
=
g
k
T
d
k
d
k
T
(
g
k
+
1
−
g
k
)
(20)
\frac{g_{k+1}^T d_{k+1}}{\Vert g_{k+1}\Vert^2}=\frac{g_{k}^T d_{k}}{d_{k}^T(g_{k+1}-g_{k})}\tag{20}
∥gk+1∥2gk+1Tdk+1=dkT(gk+1−gk)gkTdk(20)
因为
f
(
x
)
~f(x)~
f(x) 为一致凸函数,根据公式
(
17
)
~(17)~
(17) 必有
d
k
−
1
T
(
g
k
−
g
k
−
1
)
>
0
~d_{k-1}^T(g_k-g_{k-1})>0~
dk−1T(gk−gk−1)>0 ,其实这个性质,
f
(
x
)
~f(x)~
f(x) 为严格凸函数也具有,是根据严格凸函数的等价定义
(
g
(
y
)
−
g
(
x
)
)
T
(
y
−
x
)
≥
0
~(g(y)-g(x))^T(y-x)\ge 0~
(g(y)−g(x))T(y−x)≥0 ,由此,我们可以利用数学归纳法,证明若函数
f
(
x
)
~f(x)~
f(x) 为严格凸函数,则 DY 算法每次搜索方向必为下降方向,从而也可以得出 DY 共轭梯度法的收敛性,而且这种下降性和全局收敛性不依赖于任何线搜索。但是此处我们想讨论的是充分下降性,所以不能就此结束。
利用公式
(
16
)
~(16)~
(16) 我们有
f
(
x
k
+
α
k
d
k
)
−
f
(
x
k
)
≥
α
k
g
k
T
d
k
+
1
2
η
α
k
2
∥
d
k
∥
2
f(x_k+\alpha_k d_k)-f(x_k)\ge \alpha_k g_k^T d_k+\frac{1}{2}\eta\alpha_k^2\Vert d_k\Vert^2
f(xk+αkdk)−f(xk)≥αkgkTdk+21ηαk2∥dk∥2
结合公式
(
18
)
~(18)~
(18) 我们有
α
k
≤
c
1
∣
g
k
T
d
k
∣
∥
d
k
∥
2
(21)
\alpha_k\le c_1\frac{\vert g_k^T d_k\vert}{\Vert d_k\Vert^2}\tag{21}
αk≤c1∥dk∥2∣gkTdk∣(21)
其中
c
1
=
2
(
1
−
ρ
)
η
~c_1=\frac{2(1-\rho)}{\eta}~
c1=η2(1−ρ)
根据梯度函数
L
i
p
s
c
h
i
t
z
~Lipschitz~
Lipschitz 条件,我们有
∣
g
k
+
1
T
d
k
−
g
k
T
d
k
∣
≤
∥
g
k
+
1
−
g
k
∥
∥
d
k
∥
≤
α
k
∥
d
k
∥
2
(22)
\vert g_{k+1}^T d_k-g_k^T d_k\vert\le\Vert g_{k+1}-g_k\Vert\Vert d_k\Vert\le\alpha_k\Vert d_k\Vert^2\tag{22}
∣gk+1Tdk−gkTdk∣≤∥gk+1−gk∥∥dk∥≤αk∥dk∥2(22)
利用
(
20
)
~(20)~
(20) ,
(
21
)
~(21)~
(21) 和
(
22
)
~(22)~
(22) ,则
g
k
+
1
T
d
k
+
1
∥
g
k
+
1
∥
2
=
g
k
T
d
k
d
k
T
(
g
k
+
1
−
g
k
)
≤
g
k
T
d
k
L
α
k
∥
d
k
∥
2
≤
−
1
L
c
1
(23)
\frac{g_{k+1}^T d_{k+1}}{\Vert g_{k+1}\Vert^2}=\frac{g_k^T d_k}{d_k^T(g_{k+1}-g_k)}\le\frac{g_k^T d_k}{L\alpha_k\Vert d_k\Vert^2}\le-\frac{1}{L c_1}\tag{23}
∥gk+1∥2gk+1Tdk+1=dkT(gk+1−gk)gkTdk≤Lαk∥dk∥2gkTdk≤−Lc11(23)
故充分下降
(
15
)
~(15)~
(15) 中的
c
~c~
c 可取
c
=
1
L
c
1
~c=\frac{1}{Lc_1}~
c=Lc11
<6> 若
f
(
x
)
~f(x)~
f(x) 为强凸函数且线搜索有公式
(
19
)
~(19)~
(19) 的 DY 共轭梯度法满足充分下降性
此处证明过程基本与上相同,故在此简单说一下。
利用公式
(
16
)
~(16)~
(16) 我们有
f
(
x
k
+
α
k
d
k
)
−
f
(
x
k
)
≥
α
k
g
k
T
d
k
+
1
2
η
α
k
2
∥
d
k
∥
2
f(x_k+\alpha_k d_k)-f(x_k)\ge \alpha_k g_k^T d_k+\frac{1}{2}\eta\alpha_k^2\Vert d_k\Vert^2
f(xk+αkdk)−f(xk)≥αkgkTdk+21ηαk2∥dk∥2
结合公式
(
19
)
~(19)~
(19) 我们有
α
k
≤
c
2
∣
g
k
T
d
k
∣
∥
d
k
∥
2
\alpha_k\le c_2\frac{\vert g_k^T d_k\vert}{\Vert d_k\Vert^2}
αk≤c2∥dk∥2∣gkTdk∣
其中
c
2
=
1
1
2
η
+
ρ
~c_2=\frac{1}{\frac{1}{2}\eta+\rho}~
c2=21η+ρ1
后面与式
(
23
)
~(23)~
(23) 中完全一样,只是其中
c
1
~c_1~
c1 换成
c
2
~c_2~
c2 而已。
注:很多人可能觉得式 (18) 或者 (19)线搜索是否存在,此处我想说的是当然存在,比如有 Armijo 线搜索, 后面我可能会单独讲一下线搜索,此处不想过多讲述。
5、总结和参考文献
这篇文章的内容主要讲述了三个方面:一、 DY 共轭梯度法在标准 Wolfe 线搜索下的全局收敛性。二、DY共轭梯度法在强 Wolfe 线搜索下具有充分下降性并且全局收敛性。三、DY 共轭梯度法在一致凸函数加以某些条件具有充分下降性。
以上内容参考 袁亚湘 和 戴彧虹老师的文章,对了 DY 共轭梯度法中 D 和 Y 便是他们名字的首字母,是八种经典共轭梯度法(DY,FR,CD,PRP,HS,LS,DL,HZ)的其中之一。
参考文献
[1] Dai Y H , Yuan Y. A Nonlinear Conjugate Gradient with a Strong Global Convergence Property, SIAM Journal of Optimization, 2000, 10: 177-182
[2] Dai Y H, Yuan Y. Some properties of a new conjugate gradient method, in: Yuan Y, ed. Advances in Nonlinear Programming, Boston: Kluwer, 1998, 251~262.