最优化理论-2-梯度下降法

梯度法分类

在这里插入图片描述

上升与下降方向

大家应该都听过最陡梯度下降法。首先,“陡”与方向有关,既然是最陡,就存在不那么“陡”的方向。在介绍最陡梯度下降法之前,先了解一下下降方向。这个时候高中学的地理知识可发挥用场了,“等高线”可以刻画一座山的大概海拔高度。在这里,等高线的中心,那个最高的地方,就是我们所要的最优值。

我们如果要最快到达山顶,肯定是当前位置与山顶的连线方向距离最短。在现实生活中,如果是一座很高的山,傻子才会直接爬,都是走盘山公路。为什么? 那么陡怎么爬!对了

在等高线中,梯度就是导数变化最快的方向,也就是“最陡”的方向。其方向若靠近中心点,就是下降,远离就是上升。
在这里插入图片描述

最陡下降法

但是,一般等高线不是由许多同心圆组成的,而且等高线哥哥各个地方之间的距离变化。如下图,从 d k d_k dk按照最陡下降方向到了 d k + 1 d_{k+1} dk+1,若仍然按照此方向继续下降,是得不到最优解,跑飞了!这说明,要把握一个度,就是你走路不要走得太快了!用什么控制速度,当然是放慢步伐,迈小一点步子。这就是靠步长,也称学习率,来控制啦!

因此我们到了 d k + 1 d_{k+1} dk+1就停下来,再朝梯度最陡峭的方向前进!由此可见,每次改变方向,两个方向的夹角都是垂直的!到了最后越靠近中心,我们越要迈更小的步伐,学习率也要更小。在确定学习率的时候,就可以用到前面介绍的线搜法。因此越接近中心点,收敛会越来越慢。如果不用线搜法确定学习率,而是采用固定的步长,在接近中心的时候就会产生震荡。

在训练一个深度神经网络的时候,有很多学习率调整策略,随着训练轮数的增加,学习率也会下降。
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值