深度学习实战（八）——如何设置学习率

马大哈先生

于 2019-06-28 20:12:32 发布

阅读量2.7w

点赞数 17

分类专栏：深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_37764129/article/details/94032900

版权

本文介绍了深度学习中学习率的重要性，分析了学习率过大或过小对模型训练的影响，并探讨了根据数据集大小选择学习率的方法。此外，文章详细阐述了动态调整学习率的两种策略：手动经验和策略调整，包括固定、指数、多项式衰减以及自适应优化算法如adadelta、adagrad等。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一、学习率的介绍

学习率是深度学习中的一个重要的超参，如何调整学习率是训练出好模型的关键要素之一。在通过SGD求解问题的极小值时，梯度不能太大，也不能太小。太大容易出现超调现象，即在极值点两端不断发散，或是剧烈震荡，总之随着迭代次数增大loss没有减小的趋势；太小会导致无法快速地找到好的下降的方向，随着迭代次数增大loss基本不变。学习率越小，损失梯度下降的速度越慢，收敛的时间更长【1】。
如公式所示：
new_weight= existing_weight — learning_rate * gradient
(新权值 = 当前权值 – 学习率 × 梯度)

采用小学习速率（顶部）和大学习速率（底部）的梯度下降

如果学习率过小，梯度下降很慢，如果学习率过大，如Andrew Ng的Stanford公开课程所说梯度下降的步子过大可能会跨过最优值。不同的学习率对loss的影响如下图所示【2】：

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。