【deeplearning基础知识】Momentum优化是如何计算的

最新推荐文章于 2024-06-30 10:56:23 发布

超级无敌陈大佬的跟班

最新推荐文章于 2024-06-30 10:56:23 发布

阅读量777

点赞数

CC 4.0 BY-SA版权

分类专栏： Deep Learning

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/chen1234520nnn/article/details/103041705

Deep Learning 专栏收录该内容

34 篇文章

订阅专栏

本文探讨了mini-batch SGD训练算法存在的问题，包括在最优点附近震荡和收敛速度问题。介绍了Momentum方法如何有效解决这些问题，通过引入动量概念改进参数更新过程，实现更稳定和快速的收敛。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

mini-batch SGD训练算法的问题：1）虽然能够带来很好的训练速度，但是在到达最优点的时候并不能够总是真正到达最优点，而是在最优点附近徘徊。容易产生一些震荡。

2）采用小的学习率的时候，会导致网络在训练的时候收敛太慢；当我们采用大的学习率的时候，会导致在训练过程中优化的幅度跳过函数的范围，也就是可能跳过最优点。

Momentum方法：能够很好的解决SGD中上面的两个问题。

SGD更新参数的方式：参数等于上次的值，减去学习率*梯度。

Momentum更新参数的方式：

第一步：先计算动量的速度，Vdw等于上一次的值和梯度dW共同计算得到，其中取值一般为0.9。

第二步：更新参数W，这里的才为学习率。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。