深度学习中的常用优化算法

最新推荐文章于 2024-07-13 21:05:40 发布

黄小猿

最新推荐文章于 2024-07-13 21:05:40 发布

阅读量2.7k

点赞数 4

分类专栏：最优化理论与优化算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_39422642/article/details/80097048

版权

本文详细介绍了深度学习中的优化算法，包括动量法、AdaGrad、RMSProp和Adam。这些算法旨在改进神经网络的训练过程，通过动态调整学习率和考虑历史梯度信息来加速收敛。在实践中，Adam通常是首选算法，因其结合了多种算法的优点，且对超参数的选择较为鲁棒。

摘要由CSDN通过智能技术生成

4 深度学习中的优化算法

深度学习是目前非常火的一个研究领域，主要以研究神经网络为主，因为其复杂性，所以有很多问题需要处理，同时也衍生出了很多不同的优化算法，专门改善神经网络的训练，使得它能够在工业界使用。

因此，本章收录了关于神经网络训练的一些问题，以及相应的较为成熟的解决方案，供读者使用。

4.1 动量momentum

虽然小批量梯度下降法相比于梯度下降法有了一定的效率提升，但如果小批量中的样本也特别大的时候，一个批次的训练也会非常慢，所以人们就想，能不能在小批次样本上加快迭代的速度？

在物理学中，因为惯性，物体当前时刻的速度会受到前一时刻的速度影响，基于此，发现了momentum优化算法。简单的说，就是当前迭代点的下降方向不仅仅取决于当前的梯度，还受到前面所有迭代点的影响，就像小球在碗里滑动一样，它的滑动速度会越来越快，这样迭代就能快速地到达谷底了。

物理示意图如下，迭代的实际方向是以前所有的动量和当前梯度的组合：

假设学习率为

ε ε $\varepsilon$ ,动量参数为

α α $\alpha$ .初始参数为w，初始速度为v，每个批次有m个样本{

x(1),x(2),⋯,x(m) x ( 1 ) , x ( 2 ) , ⋯ , x ( m ) $x^{(1)},x^{(2)},\cdots,x^{(m)}$ },它们对应的学习目标为

y(i) y ( i ) $y^{(i)}$ ,梯度的计算可以表示为：

g = \nabla w (1 m \sum i m L (f (x (i); w), y (i)))

最低0.47元/天解锁文章

关注

4
点赞
踩
17

收藏

觉得还不错? 一键收藏
0
评论
深度学习中的常用优化算法

4 深度学习中的优化算法4.1 动量momentum4.2 AdaGrad4.3 RMSProp4.4 Adam4.5 几种算法的比较4 深度学习中的优化算法深度学习是目前非常火的一个研究领域，主要以研究神经网络为主，因为其复杂性，所以有很多问题需要处理，同时也衍生出了很多不同的优化算法，专门改善神经网络的训练，使得它能够在工业界使用。因此，本章收录了关...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。