学习率Learning rate

最新推荐文章于 2025-03-25 23:49:02 发布

John_kai

最新推荐文章于 2025-03-25 23:49:02 发布

阅读量2w

点赞数 11

分类专栏：深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/John_kai/article/details/72861731

版权

深度学习专栏收录该内容

5 篇文章

订阅专栏

本文介绍了如何选择合适的学习率以优化梯度下降算法的性能。包括根据数据集大小选择学习率、采用均值平方差函数作为成本函数以及使用学习率自适应调节方法等内容。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

学习率的调整

从梯度下降算法的角度来说，通过选择合适的学习率，可以使梯度下降法得到更好的性能。学习率，即参数到达最优值过程的速度快慢，如Andrew Ng的Stanford公开课程所说，假如你从山峰的最高点根据梯度下降法寻找最优值，当你学习率过大，即下降的快，步子大，那么你很可能会在某一步跨过最优值，当你学习率过小时，每次下降一厘米，这将走到何年何月呀，用术语来说就是，长时间无法收敛。因此，学习率直接决定着学习算法的性能表现。

可以根据数据集的大小来选择合适的学习率，当使用平方误差和作为成本函数时，随着数据量的增多，学习率应该被设置为相应更小的值（从梯度下降算法的原理可以分析得出）。另一种方法就是，选择不受数据集大小影响的成本函数-均值平方差函数。
在不同的迭代中选择不同的学习率，还是用前面下山的例子来解释，当你大概知道最优值离你还挺远时，你肯定不会一步一厘米的去走，你肯定会大跨步走到离最优值不远的地方，然后再用小碎步来慢慢找到最优值。即，在最初的迭代中，学习率可以大一些，快接近时，学习率小一些。问题就出在这里，有人会说，我要是知道了最优值，还有梯度下降算法什么事，说的也对，那么我们是怎么解决的呢，我们在每次迭代后，使用估计的模型的参数来查看误差函数的值，如果相对于上一次迭代，错误率减少了，就可以增大学习率如果相对于上一次迭代，错误率增大了，那么应该重新设置上一轮迭代的值，并且减少学习率到之前的50%。因此，这是一种学习率自适应调节的方法。
一般常用的学习率有0.00001，0.0001，0.001，0.003，0.01，0.03，0.1，0.3，1，3，10

评论 3

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。