模型的学习率(learning rate)太高将使网络无法收敛!

本文探讨了在深度学习中,过大的学习率会导致模型无法收敛的原因,指出学习率过高会使模型参数剧烈震荡,甚至超出有效范围。通过实例展示了不同学习率下模型的收敛情况,如lr=0.1时收敛良好,而lr=0.6和0.75时,模型因学习率过大而无法正常训练。
摘要由CSDN通过智能技术生成

博主在跑代码的时候,发现过大的Learning rate将导致模型无法收敛。

主要原因是过大的learning rate将导致模型的参数迅速震荡到有效范围之外.(注: 由于pytorch中已封装好的代码对模型参数的大小设置了一个界限,因此模型参数不会无限大)

这篇文章将要探讨一下不同learning rate的情况下,模型的收敛情况.

  • lr = 0.1,模型收敛得很好。
    收敛性良好
  • lr = 0.6,在第8轮中模型的参数由于过大,导致无法正常地求loss值。

在这里插入图片描述

  • lr = 0.75,过大的learning rate直接导致模型参数大幅震荡。
    在这里插入图片描述
    最后,请再温习一遍这幅图:
    在这里插入图片描述
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值