深度学习笔记（10）优化算法（二）

最新推荐文章于 2023-10-08 18:56:00 发布

氢键H-H

最新推荐文章于 2023-10-08 18:56:00 发布

阅读量1.8w

点赞数 3

分类专栏：算法深度学习笔记文章标签： adam算法学习率衰减局部最优问题

本文为氢键H-H原创文章，未经允许请勿用于商业用途，转载请注明出处

本文链接：https://blog.csdn.net/qq_32618327/article/details/90412658

版权

深度学习笔记同时被 2 个专栏收录

52 篇文章 83 订阅

订阅专栏

18 篇文章 43 订阅

订阅专栏

深度学习笔记（10）优化算法（二）

1. Adam 优化算法
2. 学习率衰减
3. 局部最优的问题

1. Adam 优化算法

Adam代表的是 Adaptive Moment Estimation
基本上就是将 Momentum 和 RMSprop 结合在一起

首先初始化，v_dW=0，S_dW=0，v_db=0，S_db=0
在第 t 次迭代中，要计算微分，用当前的mini-batch计算dW，db

接下来计算Momentum指数加权平均数：
在这里插入图片描述
用RMSprop计算：

计算偏差修正：
在这里插入图片描述
最后更新权重，所以W，b更新后是

超参数β₁常用的缺省值为0.9
这是dW的移动平均数，也就是dW的加权平均数
计算这个微分dW，叫做第一矩

超参数β₂，推荐使用0.999
建议 ε 为10^-8
计算平方数的指数加权平均数dW²，叫做第二矩

2. 学习率衰减

加快学习算法的一个办法就是随时间慢慢减少学习率，称为学习率衰减
减少a的本质在于，在学习初期，能承受较大的步伐
但当开始收敛的时候，小一些的学习率能让步伐小一些

拆分成不同的mini-batch，第一次遍历训练集叫做第一代
第二次就是第二代，依此类推，
将设学习率：
在这里插入图片描述
衰减率： $d e c a y - r a t e$
代数： $e p o c h - n u m$
初始学习率： $α$ ₀

也有指数衰减：
其中a相当于一个小于1的值
如 $α$ = 0.95^epoch-num $α$ ₀，所以学习率呈指数下降

人们用到的其它公式有:
在这里插入图片描述
t 为 mini-batch 的数字

3. 局部最优的问题

如果要创建一个神经网络，通常梯度为零的点并不是这个图中的局部最优点，通常是鞍点
在这里插入图片描述
但是一个具有高维度空间的函数，如果梯度为0
那么在每个方向，它可能是凸函数，也可能是凹函数

如果在2万维空间中，那么想要得到局部最优，所有的2万个方向都需要是这样
但发生的机率也许很小，也许是2^-20000
更有可能遇到有些方向的曲线会这样向上弯曲，另一些方向曲线向下弯，而不是所有的都向上弯曲
因此在高维度空间，更可能碰到鞍点

在这里插入图片描述
局部最优不是问题，结果是平稳段会减缓学习
平稳段是一块区域，其中导数长时间接近于0

花上很长时间慢慢抵达平稳段的这个点，因为左边或右边的随机扰动，就能够走出平稳段
像 Momentum 或是 RMSprop ，Adam 这样的算法，能够加速学习算法
在这些情况下，更成熟的优化算法，如 Adam 算法，能够加快速度，尽早往下走出平稳段

参考：

《神经网络和深度学习》视频课程

相关推荐：

深度学习笔记（9）优化算法（一）
深度学习笔记（8）实践层面（三）
深度学习笔记（7）实践层面（二）
深度学习笔记（6）实践层面（一）
深度学习笔记（5）深层神经网络

谢谢！

关注

3
点赞
踩
8

收藏

觉得还不错? 一键收藏
打赏
3
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 3

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

氢键H-H 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。