梯度法分类
上升与下降方向
大家应该都听过最陡梯度下降法。首先,“陡”与方向有关,既然是最陡,就存在不那么“陡”的方向。在介绍最陡梯度下降法之前,先了解一下下降方向。这个时候高中学的地理知识可发挥用场了,“等高线”可以刻画一座山的大概海拔高度。在这里,等高线的中心,那个最高的地方,就是我们所要的最优值。
我们如果要最快到达山顶,肯定是当前位置与山顶的连线方向距离最短。在现实生活中,如果是一座很高的山,傻子才会直接爬,都是走盘山公路。为什么? 那么陡怎么爬!对了
在等高线中,梯度就是导数变化最快的方向,也就是“最陡”的方向。其方向若靠近中心点,就是下降,远离就是上升。
最陡下降法
但是,一般等高线不是由许多同心圆组成的,而且等高线哥哥各个地方之间的距离变化。如下图,从 d k d_k dk按照最陡下降方向到了 d k + 1 d_{k+1} dk+1,若仍然按照此方向继续下降,是得不到最优解,跑飞了!这说明,要把握一个度,就是你走路不要走得太快了!用什么控制速度,当然是放慢步伐,迈小一点步子。这就是靠步长,也称学习率,来控制啦!
因此我们到了 d k + 1 d_{k+1} dk+1就停下来,再朝梯度最陡峭的方向前进!由此可见,每次改变方向,两个方向的夹角都是垂直的!到了最后越靠近中心,我们越要迈更小的步伐,学习率也要更小。在确定学习率的时候,就可以用到前面介绍的线搜法。因此越接近中心点,收敛会越来越慢。如果不用线搜法确定学习率,而是采用固定的步长,在接近中心的时候就会产生震荡。
在训练一个深度神经网络的时候,有很多学习率调整策略,随着训练轮数的增加,学习率也会下降。