DY 共轭梯度法的内在性质及其应用
1、介绍
2、DY 共轭梯度法的内在性质
3、DY 共轭梯度法在一般线搜索条件下的全局收敛性
4、结束语
1、介绍
共轭梯度法是解决无约束优化问题的常用方法之一,问题如下
min
x
∈
R
n
f
(
x
)
(1)
\min_{x\in\mathbb{R}^n} f(x)\tag{1}
x∈Rnminf(x)(1)
求解此问题,一般采取线搜索技巧,其基本迭代格式形如
x
k
+
1
=
x
k
+
α
k
d
k
(2)
x_{k+1}=x_k+\alpha_k d_k\tag{2}
xk+1=xk+αkdk(2)
d
k
=
{
−
g
k
,
k
=
1
,
−
g
k
+
β
k
d
k
,
k
≥
2
,
(3)
d_k=\begin{cases} -g_k,\quad & k=1,\\ -g_k+\beta_k d_k, &k\ge 2,\end{cases}\tag{3}
dk={−gk,−gk+βkdk,k=1,k≥2,(3)
其中
g
k
~g_k~
gk 是迭代点
x
k
~x_k~
xk 处的梯度,
α
k
~\alpha_k~
αk 是搜素步长,
d
k
~d_k~
dk 是搜素方向,
β
k
~\beta_k~
βk 为共轭参数。
不同的参数
β
k
~\beta_k~
βk 决定不同的共轭梯度法。在前一篇文章,我们主要介绍了由 戴彧虹 和 袁亚湘 提出的 DY 共轭梯度法,其
β
k
~\beta_k~
βk 的参数形式如下
β
k
D
Y
=
∥
g
k
∥
2
d
k
−
1
(
g
k
−
g
k
−
1
)
(4)
\beta_k^{DY}=\frac{\Vert g_k\Vert^2}{d_{k-1}(g_k-g_{k-1})}\tag{4}
βkDY=dk−1(gk−gk−1)∥gk∥2(4)
表明了其它标准 Wolfe 线搜索下能够建立全局收敛性,进一步,如果在强 Wolfe 线搜索下能够保证其充分下降性。我们还讨论了如果函数
f
(
x
)
~f(x)~
f(x) 为严格凸函数(一致凸函数),能够保证下降性(充分下降性)。
在此,我想表明的是,通过以上对 DY 算法的认识还远远不够,我们应该更加深入讨论 DY 共轭梯度法的内在性质,这些性质并不依赖于线搜索的选择和函数的凸性。最后我们利用这些性质,构造出几种特殊的线搜索来建立全局收敛性。
2、DY 共轭梯度法的内在性质
为了严谨,我们都是假定
g
k
≠
0
,
∀
k
≠
1
(5)
g_k\neq 0,~~~\forall ~k\neq 1\tag{5}
gk=0, ∀ k=1(5)
否则,稳定点我们已经得到,迭代算法就会终止。
其次,我们定义两个后面会用到的两个量
q
k
=
∥
d
k
∥
2
(
g
k
T
d
k
)
2
(6)
q_k=\frac{\Vert d_k\Vert^2}{(g_k^Td_k)^2}\tag{6}
qk=(gkTdk)2∥dk∥2(6)
r
k
=
−
g
k
T
d
k
∥
g
k
∥
2
(7)
r_k=-\frac{g_k^T d_k}{\Vert g_k\Vert^2}\tag{7}
rk=−∥gk∥2gkTdk(7)
其中
q
k
~q_k~
qk 可看成一个反映方向
d
k
~d_k~
dk 长度的量,
r
k
~r_k~
rk 则反映
d
k
~d_k~
dk 的下降程度。实际上,若
r
k
>
0
~r_k>0~
rk>0 ,则
d
k
~d_k~
dk 是下降方向,若
r
k
≥
c
~r_k\ge c~
rk≥c 对某常数
c
~c~
c 成立,则式
(
7
)
~(7)~
(7) 表明
d
k
~d_k~
dk 是下降方向。
下面的这些东西,其实在上一篇文章的证明过程中也出现过,在此我们还是叙述一下
当
k
≥
2
~k\ge 2~
k≥2 时,
d
k
=
−
g
k
+
β
k
D
Y
d
k
−
1
~d_k=-g_k+\beta_k^{DY}d_{k-1}~
dk=−gk+βkDYdk−1 ,两端与
g
k
~g_k~
gk 做内积。
g
k
T
d
k
=
−
∥
g
k
∥
2
+
β
k
D
Y
g
k
T
d
k
−
1
=
∥
g
k
∥
2
g
k
−
1
T
d
k
−
1
d
k
−
1
T
(
g
k
−
g
k
−
1
)
=
β
k
D
Y
g
k
−
1
T
d
k
−
1
(8)
g_k^T d_k=-\Vert g_k\Vert^2+\beta_k^{DY}g_k^T d_{k-1}=\Vert g_k\Vert^2\frac{g_{k-1}^T d_{k-1}}{d_{k-1}^T(g_k-g_{k-1})}=\beta_k^{DY}g_{k-1}^T d_{k-1}\tag{8}
gkTdk=−∥gk∥2+βkDYgkTdk−1=∥gk∥2dk−1T(gk−gk−1)gk−1Tdk−1=βkDYgk−1Tdk−1(8)
当
k
≥
2
~k\ge 2~
k≥2 时,
d
k
+
g
k
=
β
k
d
k
−
1
~d_k+g_k=\beta_k d_{k-1}~
dk+gk=βkdk−1 ,两端取模平方并移项,可得
∥
d
k
∥
2
=
β
k
2
∥
d
k
−
1
∥
2
−
2
g
k
T
d
k
−
∥
g
k
∥
2
\Vert d_k\Vert^2=\beta_k^2\Vert d_{k-1}\Vert^2-2g_k^Td_k-\Vert g_k\Vert^2
∥dk∥2=βk2∥dk−1∥2−2gkTdk−∥gk∥2
将上式除以
(
g
k
T
d
k
)
2
~(g_k^T d_k)^2~
(gkTdk)2 ,并利用
(
8
)
~(8)~
(8) 得
∥
d
k
∥
2
(
g
k
T
d
k
)
2
=
∥
d
k
−
1
∥
2
(
g
k
−
1
T
d
k
−
1
)
−
2
g
k
T
d
k
−
∥
g
k
∥
2
(
g
k
T
d
k
)
2
(9)
\frac{\Vert d_k\Vert^2}{(g_k^T d_k)^2}=\frac{\Vert d_{k-1}\Vert^2}{(g_{k-1}^Td_{k-1})}-\frac{2}{g_k^T d_k}-\frac{\Vert g_k\Vert^2}{(g_k^T d_k)^2}\tag{9}
(gkTdk)2∥dk∥2=(gk−1Tdk−1)∥dk−1∥2−gkTdk2−(gkTdk)2∥gk∥2(9)
利用
(
6
)
~(6)~
(6) 和
(
7
)
~(7)~
(7) 的定义,则有
q
k
=
g
k
−
1
+
1
∥
g
k
∥
2
2
r
k
−
1
∥
g
k
∥
2
1
r
k
2
(10)
q_{k}=g_{k-1}+\frac{1}{\Vert g_k\Vert^2}\frac{2}{r_k}-\frac{1}{\Vert g_k\Vert^2}\frac{1}{r_k^2}\tag{10}
qk=gk−1+∥gk∥21rk2−∥gk∥21rk21(10)
因此若
r
k
>
0
~r_k>0~
rk>0 ,则式
(
10
)
~(10)~
(10) 式右端的第二项将使
q
k
−
1
~q_{k-1}~
qk−1 增加,第三项将使得
q
k
−
1
~q_{k-1}~
qk−1 的值减小,它们关于
1
r
k
~\frac{1}{r_k}~
rk1 的量级分别为一阶和二阶。同时考虑这两项,不难看出当且仅当
r
k
≥
1
2
~r_k\ge\frac{1}{2}~
rk≥21 时,
q
k
−
1
~q_{k-1}~
qk−1 增加;而当
r
k
~r_k~
rk 趋于零时,
q
k
−
1
~q_{k-1}~
qk−1 将显著减少。由于对所有的
k
≥
1
~k\ge 1~
k≥1 ,都有
q
k
≥
0
~q_k\ge 0~
qk≥0 ,我们便可以对
r
k
~r_k~
rk 的下界进行估计。
我们先给出如下假定,存在正常数
γ
~\gamma~
γ 和
γ
ˉ
~\bar{\gamma}~
γˉ 使得
γ
≤
∥
g
k
∥
≤
γ
ˉ
,
∀
k
≥
1.
(11)
\gamma\le\Vert g_k\Vert\le\bar{\gamma},~~~\forall~ k\ge 1.\tag{11}
γ≤∥gk∥≤γˉ, ∀ k≥1.(11)
定理1: 考虑方法
(
2
)
~(2)~
(2) 和
(
3
)
~(3)~
(3) ,其中
β
k
~\beta_k~
βk 由
(
4
)
~(4)~
(4) 计算,
d
k
~d_k~
dk 满足
g
k
T
d
k
<
0
~g_k^T d_k<0~
gkTdk<0 。若
(
11
)
~(11)~
(11) 成立,则存在常数
δ
1
~\delta_1~
δ1 ,
δ
2
~\delta_2~
δ2 和
δ
3
~\delta_3~
δ3 ,使得下述关系式
−
g
k
T
d
k
≥
δ
1
k
(12)
-g_k^T d_k\ge\frac{\delta_1}{\sqrt{k}}\tag{12}
−gkTdk≥kδ1(12)
∥
d
k
∥
2
≥
δ
2
k
(13)
\Vert d_k\Vert^2\ge\frac{\delta_2}{k}\tag{13}
∥dk∥2≥kδ2(13)
r
k
≥
δ
3
k
(14)
r_k\ge\frac{\delta_3}{\sqrt{k}}\tag{14}
rk≥kδ3(14)
对所有
k
≥
1
~k\ge 1~
k≥1 都成立.
证明: 利用
r
1
=
1
~r_1=1~
r1=1 ,对
(
10
)
~(10)~
(10) 式求和,得
q
k
=
∑
i
=
1
k
1
∥
g
i
∥
2
(
2
r
i
−
1
r
i
2
)
(15)
q_k=\sum_{i=1}^k\frac{1}{\Vert g_i\Vert^2}(\frac{2}{r_i}-\frac{1}{r_i^2})\tag{15}
qk=i=1∑k∥gi∥21(ri2−ri21)(15)
因为
q
k
≥
0
~q_k\ge 0~
qk≥0 ,上式表明
1
∥
g
k
∥
2
(
−
2
r
k
+
1
r
k
2
)
≤
∑
i
=
1
k
−
1
1
∥
g
i
∥
2
(
2
r
i
−
1
r
i
2
)
(16)
\frac{1}{\Vert g_k\Vert^2}(-\frac{2}{r_k}+\frac{1}{r_k^2})\le\sum_{i=1}^{k-1}\frac{1}{\Vert g_i\Vert^2}(\frac{2}{r_i}-\frac{1}{r_i^2})\tag{16}
∥gk∥21(−rk2+rk21)≤i=1∑k−1∥gi∥21(ri2−ri21)(16)
利用
(
11
)
~(11)~
(11) 、
(
16
)
~(16)~
(16) 及关系
2
r
i
−
1
r
i
2
≤
1
(17)
\frac{2}{r_i}-\frac{1}{r_i^2}\le 1\tag{17}
ri2−ri21≤1(17)
即得
1
r
k
2
−
2
r
k
−
γ
2
ˉ
γ
2
(
k
−
1
)
≤
0
(18)
\frac{1}{r_k^2}-\frac{2}{r_k}-\frac{\bar{\gamma^2}}{\gamma^2}(k-1)\le 0\tag{18}
rk21−rk2−γ2γ2ˉ(k−1)≤0(18)
从上式及
r
k
>
0
~r_k>0~
rk>0 ,不难证得
1
r
k
≤
1
+
1
+
γ
ˉ
2
γ
2
(
k
−
1
)
≤
1
+
γ
ˉ
γ
k
≤
2
γ
ˉ
γ
k
(19)
\frac{1}{r_k}\le 1+\sqrt{1+\frac{\bar{\gamma}^2}{\gamma^2}(k-1)}\le1+\frac{\bar{\gamma}}{\gamma}\sqrt{k}\le\frac{2\bar{\gamma}}{\gamma}\sqrt{k}\tag{19}
rk1≤1+1+γ2γˉ2(k−1)≤1+γγˉk≤γ2γˉk(19)
因此对
(
14
)
~(14)~
(14) 对
δ
3
=
γ
2
γ
ˉ
~\delta_3=\frac{\gamma}{2\bar{\gamma}}~
δ3=2γˉγ ,注意到
−
g
k
T
d
k
=
∥
g
k
∥
2
r
k
(20)
-g_k^T d_k=\Vert g_k\Vert^2r_k\tag{20}
−gkTdk=∥gk∥2rk(20)
以及
∥
d
k
∥
≥
∥
g
k
∥
r
k
(21)
\Vert d_k\Vert\ge\Vert g_k\Vert r_k\tag{21}
∥dk∥≥∥gk∥rk(21)
即对关系式
(
13
)
~(13)~
(13) 和
(
14
)
~(14)~
(14) 中的
δ
1
=
δ
3
γ
2
~\delta_1=\delta_3\gamma^2~
δ1=δ3γ2 和
δ
2
=
δ
3
2
γ
2
~\delta_2=\delta_3^2\gamma^2~
δ2=δ32γ2 也成立。
注1: 在上面的定理中,关系式
(
14
)
~(14)~
(14) 并不表明充分下降在每一步都成立。虽然如此,我们可以证明 DY 共轭梯度法的充分下降性质对大部分点列都成立。
定理 2: 考虑方法
(
2
)
~(2)~
(2) 和
(
3
)
~(3)~
(3) ,其中
β
k
~\beta_k~
βk 由
(
4
)
~(4)~
(4) 计算,
d
k
~d_k~
dk 满足
g
k
T
d
k
<
0
~g_k^T d_k<0~
gkTdk<0 ,若
(
11
)
~(11)~
(11) 成立,则对任意的
p
∈
(
0
,
1
)
~p\in(0,1)~
p∈(0,1) ,存在正常数
δ
4
~\delta_4~
δ4 ,
δ
5
~\delta_5~
δ5 ,
δ
6
~\delta_6~
δ6 ,使得对所有的
k
≥
1
~k\ge 1~
k≥1 ,关系式
−
g
i
T
d
i
≥
δ
4
(22)
-g_i^T d_i\ge \delta_4\tag{22}
−giTdi≥δ4(22)
∥
d
i
∥
2
≥
δ
5
(23)
\Vert d_i\Vert^2\ge\delta_5\tag{23}
∥di∥2≥δ5(23)
以及
r
i
≥
δ
6
(24)
r_i\ge\delta_6\tag{24}
ri≥δ6(24)
对
[
1
,
k
]
~[1,k]~
[1,k] 中至少
[
p
k
]
~[pk]~
[pk] 个
i
~i~
i 成立
证明: 对任意的
p
∈
(
0
,
1
)
~p\in (0,1)~
p∈(0,1) ,我们选取
δ
6
>
0
~\delta_6>0~
δ6>0 ,使其满足
δ
′
≜
1
δ
6
2
−
2
δ
6
γ
≥
γ
2
ˉ
p
γ
2
(
1
−
p
)
(25)
\delta^{'}\triangleq\frac{1}{\delta_6^2}-\frac{2}{\delta_6\gamma}\ge\frac{\bar{\gamma^2}p}{\gamma^2(1-p)}\tag{25}
δ′≜δ621−δ6γ2≥γ2(1−p)γ2ˉp(25)
对此
δ
6
~\delta_6~
δ6 和任意的
k
~k~
k ,定义集合
I
k
=
{
i
∈
[
1
,
k
]
:
r
i
≥
δ
6
}
(26)
I_k=\left\{i\in[1,k]:r_i\ge\delta_6\right\}\tag{26}
Ik={i∈[1,k]:ri≥δ6}(26)
并记
∣
I
k
∣
~\vert I_k\vert~
∣Ik∣ 为
I
k
~I_k~
Ik 中元素的个数,利用
(
10
)
~(10)~
(10) 、
(
11
)
~(11)~
(11) 以及
q
k
≥
0
~q_k\ge 0~
qk≥0 ,不难看出
∑
i
∈
[
1
,
k
]
\
I
k
(
−
2
r
i
+
1
r
i
2
)
≤
γ
ˉ
2
γ
2
∑
i
∈
I
k
(
2
r
i
−
1
r
i
2
)
(27)
\sum_{i\in [1,k]\backslash I_k}(-\frac{2}{r_i}+\frac{1}{r_i^2})\le\frac{\bar{\gamma}^2}{\gamma^2}\sum_{i\in I_k}(\frac{2}{r_i}-\frac{1}{r_i^2})\tag{27}
i∈[1,k]\Ik∑(−ri2+ri21)≤γ2γˉ2i∈Ik∑(ri2−ri21)(27)
于是,由
(
17
)
~(17)~
(17) ,
(
27
)
~(27)~
(27) 以及
I
k
~I_k~
Ik 的定义可得
δ
′
(
k
−
∣
I
k
∣
)
≤
γ
ˉ
2
γ
2
∣
I
k
∣
(28)
\delta^{'}(k-\vert I_k\vert)\le\frac{\bar{\gamma}^2}{\gamma^2}\vert I_k\vert\tag{28}
δ′(k−∣Ik∣)≤γ2γˉ2∣Ik∣(28)
其中
δ
′
~\delta^{'}~
δ′ 由
(
25
)
~(25)~
(25) 给出,上式和
(
25
)
~(25)~
(25) 表明了
∣
I
k
∣
≥
δ
′
γ
2
δ
′
γ
2
+
γ
ˉ
2
k
≥
p
k
≥
[
p
k
]
(29)
\vert I_k\vert\ge\frac{\delta^{'}\gamma^2}{\delta^{'}\gamma^2+\bar{\gamma}^2}k\ge p k\ge [pk]\tag{29}
∣Ik∣≥δ′γ2+γˉ2δ′γ2k≥pk≥[pk](29)
故对任意的
p
∈
(
0
,
1
)
~p\in (0,1)~
p∈(0,1) ,如果选取
δ
6
>
0
~\delta_6>0~
δ6>0 满足
(
25
)
~(25)~
(25) 、
δ
4
=
δ
6
γ
2
~\delta_4=\delta_6\gamma^2~
δ4=δ6γ2 ,
δ
5
=
δ
6
2
γ
2
~\delta_5=\delta_6^2\gamma^2~
δ5=δ62γ2 ,则从
(
11
)
~(11)~
(11) ,
(
20
)
~(20)~
(20) ,
(
21
)
~(21)~
(21) 和
(
29
)
~(29)~
(29) 知,关系式
(
22
)
−
(
24
)
~(22)-(24)~
(22)−(24) 至少对
[
p
k
]
~[pk]~
[pk] 个
i
~i~
i 都成立。
注2:上述证明证明过程,本人看了很久,奈何水平有限,感觉理解不了。比如式
(
25
)
~(25)~
(25) 的定义,
(
27
)
~(27)~
(27) 和
(
28
)
~(28)~
(28) 的推导,就不明白,如果有人了解,还望不吝赐教。
3、DY 共轭梯度法在一般线搜索条件下的全局收敛性
现在设线搜索满足如下较为一般的条件
f
k
−
f
k
+
1
≥
c
min
{
−
g
k
T
d
k
,
∥
d
k
∥
2
,
q
k
−
1
}
(30)
f_k-f_{k+1}\ge c\min\left\{-g_k^T d_k,\Vert d_k\Vert^2,q_k^{-1}\right\}\tag{30}
fk−fk+1≥cmin{−gkTdk,∥dk∥2,qk−1}(30)
其中
c
>
0
~c>0~
c>0 为常数,而
q
k
~q_k~
qk 由
(
6
)
~(6)~
(6) 式给出。因为对标准 Wolfe 线搜索可证明
f
k
−
f
k
+
1
≥
c
q
k
−
1
(31)
f_k-f_{k+1}\ge cq_k^{-1}\tag{31}
fk−fk+1≥cqk−1(31)
对标准 Armijo 线搜索 ,
α
k
=
max
{
λ
m
:
m
≥
0
,
m
∈
N
}
~\alpha_k=\max \left\{\lambda^m:m\ge 0,m\in\mathbb{N}\right\}~
αk=max{λm:m≥0,m∈N} 满足下式
f
(
x
k
+
α
k
d
k
)
−
f
(
x
k
)
≤
σ
α
k
g
k
T
d
k
f(x_k+\alpha_k d_k)-f(x_k)\le\sigma\alpha_k g_k^Td_k
f(xk+αkdk)−f(xk)≤σαkgkTdk
则有下式成立
f
k
−
f
k
+
1
≥
c
{
−
g
k
T
d
k
,
q
k
−
1
}
(32)
f_k-f_{k+1}\ge c\left\{-g_k^Td_k,q_k^{-1}\right\}\tag{32}
fk−fk+1≥c{−gkTdk,qk−1}(32)
对另一种 Armijo 型 线搜索,
α
k
=
max
{
λ
m
:
m
≥
0
,
m
∈
N
}
~\alpha_k=\max \left\{\lambda^m:m\ge 0,m\in\mathbb{N}\right\}~
αk=max{λm:m≥0,m∈N} 满足下式
f
(
x
k
+
α
k
d
k
)
−
f
(
x
k
)
≤
−
δ
α
k
2
g
k
T
d
k
f(x_k+\alpha_k d_k)-f(x_k)\le-\delta\alpha_k^2 g_k^Td_k
f(xk+αkdk)−f(xk)≤−δαk2gkTdk
则有下式成立
f
k
−
f
k
+
1
≥
c
min
{
∥
d
k
∥
2
,
q
k
−
1
}
(33)
f_k-f_{k+1}\ge c\min\left\{\Vert d_k\Vert^2,q_k^{-1}\right\}\tag{33}
fk−fk+1≥cmin{∥dk∥2,qk−1}(33)
其上:
λ
,
σ
∈
(
0
,
1
)
,
δ
>
0
~\lambda,\sigma\in(0,1),\delta>0~
λ,σ∈(0,1),δ>0
注:上面的
(
31
)
~(31)~
(31) 其实是标准 Wolfe 显然得出的结论,或许有对 Armijo 型线搜索不熟悉,可以私信交流
(
32
)
~(32)~
(32) 和
(
33
)
~(33)~
(33) 。以上的分析只是想说明,我们给出的线搜索
(
30
)
~(30)~
(30) t条件很好满足而已。
定理3: 设目标函数
f
(
x
)
~f(x)~
f(x) 有下界,导函数
g
(
x
)
~g(x)~
g(x) 是
L
i
p
s
c
h
i
t
z
~Lipschitz~
Lipschitz 连续,考虑方法
(
2
)
~(2)~
(2) 和
(
3
)
~(3)~
(3) ,其中
β
k
~\beta_k~
βk 由
(
4
)
~(4)~
(4) 计算,
d
k
~d_k~
dk 满足
g
k
T
d
k
<
0
~g_k^T d_k<0~
gkTdk<0 ,而步长因子
α
k
~\alpha_k~
αk 满足
(
30
)
~(30)~
(30) ,如果存在常数
γ
ˉ
>
0
~\bar{\gamma}>0~
γˉ>0 ,使得
∥
g
k
∥
≤
γ
ˉ
,
∀
k
≥
1
(34)
\Vert g_k\Vert\le\bar{\gamma},~~\forall ~k\ge 1 \tag{34}
∥gk∥≤γˉ, ∀ k≥1(34)
则方法在下述意义下是全局收敛的:
lim
k
→
∞
inf
∥
g
k
∥
=
0
(35)
\lim_{k\rightarrow\infty}\inf\Vert g_k\Vert=0\tag{35}
k→∞liminf∥gk∥=0(35)
证明: 对
(
30
)
~(30)~
(30) 式求和,并注意到
f
(
x
)
~f(x)~
f(x) 有下界,得
∑
k
≥
1
min
{
−
g
k
T
d
k
,
∥
d
k
∥
2
,
q
k
−
1
}
≤
+
∞
(36)
\sum_{k\ge 1}\min\left\{-g_k^T d_k,\Vert d_k\Vert^2,q_k^{-1}\right\}\le+\infty\tag{36}
k≥1∑min{−gkTdk,∥dk∥2,qk−1}≤+∞(36)
现用反证法,假设
(
35
)
~(35)~
(35) 不成立,即存在常数
γ
>
0
~\gamma>0~
γ>0 ,使得
∥
g
k
∥
≥
γ
,
∀
k
≥
1
(37)
\Vert g_k\Vert\ge\gamma,~~\forall~k\ge1\tag{37}
∥gk∥≥γ, ∀ k≥1(37)
由 定理2 可知,关系式
(
12
)
~(12)~
(12) 和
(
13
)
~(13)~
(13) 对某正常数
δ
1
~\delta_1~
δ1 和
δ
2
~\delta_2~
δ2 成立,此外,在
(
15
)
~(15)~
(15) 中应用
(
17
)
~(17)~
(17) 和
(
37
)
~(37)~
(37) ,得
q
k
≤
q
k
−
1
+
1
γ
2
q_k\le q_{k-1}+\frac{1}{\gamma^2}
qk≤qk−1+γ21
上式及
q
1
=
1
~q_1=1~
q1=1 表明了
q
k
−
1
≥
γ
2
k
(38)
q_k^{-1}\ge\frac{\gamma^2}{k}\tag{38}
qk−1≥kγ2(38)
于是利用
(
12
)
~(12)~
(12) 、
(
13
)
~(13)~
(13) 和
(
38
)
~(38)~
(38) ,得到
∑
k
≥
1
min
{
−
g
k
T
d
k
,
∥
d
k
∥
2
,
q
k
−
1
}
=
+
∞
\sum_{k\ge 1}\min \left\{-g_k^T d_k,\Vert d_k\Vert^2,q_k^{-1}\right\}=+\infty
k≥1∑min{−gkTdk,∥dk∥2,qk−1}=+∞
上式和
(
36
)
~(36)~
(36) 相矛盾,则表明
(
35
)
~(35)~
(35) 式成立。
4、结束语
其实上面的过程我也看了很久,也有一些不懂的地方,也都用 注 进行标记,之所以还要写出来,也希望遇见一个研究无约束优化特别是共轭梯度法的朋友,能够相互探讨,相互学习吧。
上面的内容参考 戴彧虹 的文章
[1] New properties of a nonlinear conjugate gradient method. Numerische Matheematik, 89, 83-98.