《Deep Learning (Ian Goodfellow)》深度模型的优化

最新推荐文章于 2021-01-21 14:48:37 发布

香槟酒气满天飞

最新推荐文章于 2021-01-21 14:48:37 发布

阅读量185

点赞数

分类专栏：啃书笔记（Deep Learning (Ian Goodfellow) 文章标签：深度学习机器学习

本文链接：https://blog.csdn.net/kangxiatao/article/details/111171637

版权

4 篇文章 1 订阅

订阅专栏

本文深入探讨了深度学习中的优化算法，包括动量法如何利用历史梯度信息加速收敛，AdaGrad如何通过梯度平方和调整学习率，RMSProp对AdaGrad的改进以及Adam算法如何结合动量和RMSProp的优势，为深度学习模型的训练提供更有效的优化策略。

摘要由CSDN通过智能技术生成

动量（momentum）
动量借助了物理思想，在物理学上定义为质量乘以速度。想象一下在碗里滚动一个球，不会在底部停止，受惯性影响。使用动量的随机梯度下降（SGD）也就是加了一个速度项的超参数，这个参数乘上次的移动量，影响着本次的移动量改变。 $\begin{array}{l} v \leftarrow \alpha v-\epsilon \nabla_{\theta}\left(\frac{1}{m} \sum_{i=1}^{m} L\left(f\left(x^{(i)} ; \theta\right), y^{(i)}\right)\right) \\ \theta \leftarrow \theta+v \end{array}$
- 动量移动得更快
- 动量有机会逃脱局部极小值
- 代价是引入了另一个超参数
AdaGrad（Adaptive Gradient）
AdaGrad 不是像动量一样跟踪梯度之和，而是跟踪梯度平方之和，并使用这种方法在不同的方向上调整梯度
- 在参数空间中更为平缓的倾斜方向会取得更大的进步
- 梯度的平方和只会增加，会导致有效学习率过早和过量的减小
RMSProp（Root Mean Square Propagation）
RMSProp 算法修改AdaGrad，改变梯度积累为指数加权的移动平均，也可以理解为添加衰减因子来控制梯度积累的大小，保证学习率在一个可控范围。
Adam（Adaptive Moment Estimation）
Adam 同时兼顾了动量和 RMSProp 的优点，也就是动量直接并入了梯度一阶矩（指数加权）的估计。