优化器

在这里插入图片描述

标准梯度下降法GD

在这里插入图片描述
在这里插入图片描述

随机梯度下降法(SGD)和批随机梯度下降法(BGD)

在这里插入图片描述
所以,由此可知,batch的目的只是为了优化梯度下降法。
在这里插入图片描述

为什么不用牛顿法?

在这里插入图片描述

动量法

在这里插入图片描述动量法用于解决局部梯度的反方向不一定是函数整体下降的方向,如隧道型曲面的震荡。
在这里插入图片描述
在这里插入图片描述
吸收一部分上次更新的余势,就类似于加上了铁球的惯性,铁球有惯性,就一直在下滑方向保持一定的速度。上一步的余势加上当前点处的梯度。

NAG 动量法改进算法(带刹车)

在这里插入图片描述
在这里插入图片描述
针对于学习率有关的下面两个问题:
在这里插入图片描述
自适应学习率优化算法针对于机器学习模型的学习率,传统的优化算法要么将学习率设置为常数要么根据训练次数调节学习率。极大忽视了学习率其他变化的可能性。然而,学习率对模型的性能有着显著的影响,因此需要采取一些策略来想办法更新学习率,从而提高训练速度。
目前的自适应学习率优化算法主要有:AdaGrad算法,RMSProp算法,Adam算法以及AdaDelta算法。

AdaGrad

AdaGrad = Adaptive + Gradient
思想:AdaGrad算法,独立地适应所有模型参数的学习率,缩放每个参数反比于其所有梯度历史平均值总和的平方根。具有代价函数最大梯度的参数相应地有个快速下降的学习率,而具有小梯度的参数在学习率上有相对较小的下降。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述我的理解:不同类别样本数量差异大的时候,不能通用相同的学习率。所以AdaGrad就是解决这个学习率的问题。

RMSProp算法

AdaGrad的学习率衰减太快,特别是样本越多,衰减越多,学习率相对来说很快就趋于0,为了解决这个问题,提出了AdaDelta。
在这里插入图片描述
移动平均的效果其实就是指数平均。
在这里插入图片描述
这里的AdaDelta其实是常说的RMSProp算法。
在这里插入图片描述

AdaDelta算法

为了解决RMSProp的两个问题:
1.更新公式中量纲统一;
2.彻底消灭学习率这个超参数;
提出了AdaDelta的另一个改进算法,就被称为AdaDelta算法。
在这里插入图片描述
在这里插入图片描述

Adam算法

在这里插入图片描述
在这里插入图片描述
无偏估计就是通过下面的式子实现的。当t比较小的时候,m的估计值和计算值差别很大,随着t越来越大,m的估计值就几乎等于计算值了。
在这里插入图片描述

选择标准

在这里插入图片描述
以上都是采用更新参数法则来实现优化,下面是其他方面来优化梯度下降。

其他优化方法

在这里插入图片描述
批规范化:特征值输入网络的时候都要经过归一化,但是仅仅是针对于第一层隐含层有用,对于多层神经网络,隐藏层的输出不再是归一化的数据,数据的差异可能越来越大,导致数据不平衡,所以批规范化就是在每个隐含层输出后添加了一个夹层,用于归一化隐含层的输出,并记录归一化的系数,后面就用规范化后的数据进行训练。这样每一层的输入数据都成了归一化后的数据。
在这里插入图片描述
在这里插入图片描述
高斯分布的方差需要越来越小,人为地增加衰减,下图可知,t越大,衰减越多。
在这里插入图片描述

参考链接来源

感谢原作者的优秀工作。
https://blog.csdn.net/weixin_40170902/article/details/80092628
https://www.bilibili.com/video/BV1fW411T7GP?from=search&seid=3191228025220819159

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值