梯度下降法和牛顿法其实在某种程度上只是确定了下降的方向。而下降的步长(收敛速率系数)还需要我们自己确定。而对于不同的问题下降的步长往往也是不一样的。这就造成了一些麻烦。
线搜索
前面提到迭代求解最优化问题 minf(x) min f ( x ) 的一般形式是 xk+1=xk+Δ x k + 1 = x k + Δ 。事实上我们可以把 Δ Δ 分为两个部分:方向和步长。
先确定方向,再确定步长的算法称为线搜索算法。它的一般形式为。
其中 α α 为步长, p p 为方向。显然有。进而有 pk=−B−1k∇fk p k = − B k − 1 ∇ f k 。其中B为对称非奇异矩阵。
- 当B为I时,即为梯度下降法
- 当B为 ∇2fk ∇ 2 f k 时,即为牛顿法
- 当B通过迭代进行更新时,为拟牛顿法
- 当B为 JTJ J T J 时,为高斯-牛顿法
当搜索方向确定后,就需要确定步长。
步长
而如何得到一个合适的步长这个问题又构成了一个最优化问题,即
对这个优化问题我们可以根据具体情况求出闭式解,但是这往往会很复杂。因此我们仅仅对它进行一个粗略的估计,从而在可接受的计算量的情况下,尽可能的求得较大的步长,使得h(α)尽可能降低。
(天啊,为了求解最优化问题的一步迭代步长我们又构造了一个最优化问题来进行迭代)
Armijo条件
为了满足上面的条件,人们提出了很多准则来判断步长是否合适。比如Armijo条件,这个准则的数学定义如下:
其中 c∈(0,1) c ∈ ( 0 , 1 ) 。
可以看到,这个条件约束了 h(α) h ( α ) 的变化情况,使得损失函数能够尽量降低。
回溯线搜索(Backtracking line search)
在这里介绍的回溯线搜索算法即是在这些原则的基础上实现的。回溯线算法的基本思想是在搜索方向上先设置一个较大的初始步长,如果步长太大,则以一定比例缩减步长直到满足Armijo条件。这种搜索算法就满足了步长选择的另外一个准则——每次迭代的步长尽可能大。
具体来说该算法的流程如下:
- 使用一个较大的步长 α0 α 0 对步长进行初始化。确定缩减因子 τ∈(0,1) τ ∈ ( 0 , 1 ) 和 c∈(0,1) c ∈ ( 0 , 1 )
- 当Armijo条件不满足时,令 αj=ταj−1 α j = τ α j − 1
- 返回 αj α j