训练模型积累

最新推荐文章于 2022-07-19 22:12:25 发布

caryhn

最新推荐文章于 2022-07-19 22:12:25 发布

阅读量252

点赞数 1

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/caryhn/article/details/82013630

版权

1、学习率（base_lr）：

如果学习率较小，训练会变得更加可靠，但是优化会耗费较长的时间，因为朝向损失函数最小值的每个步长很小。如果学习率较大，训练可能根本不会收敛，甚至会发散。权重的改变量可能非常大，使得优化越过最小值，使得损失函数变得更糟。

备注：诀窍就是从一个低学习率开始训练网络，并在每个批次中指数提高学习率。为每批样本记录学习率和训练损失。然后，根据损失和学习率画图。

首先，学习率较低，损失函数值缓慢改善，然后训练加速，直到学习速度变得过高导致损失函数值增加：训练过程发散。

其次，观察计算损失函数变化率（也就是损失函数关于迭代次数的导数），然后以学习率为 x 轴，以变化率为 y 轴画图。

参考：https://blog.csdn.net/sfm06sqvw55dft1/article/details/78684355

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
训练模型积累

1、学习率（base_lr）：如果学习率较小，训练会变得更加可靠，但是优化会耗费较长的时间，因为朝向损失函数最小值的每个步长很小。如果学习率较大，训练可能根本不会收敛，甚至会发散。权重的改变量可能非常大，使得优化越过最小值，使得损失函数变得更糟。备注：诀窍就是从一个低学习率开始训练网络，并在每个批次中指数提高学习率。为每批样本记录学习率和训练损失。然后，根据损失和学习率画图...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。