【深度学习】深度学习基础-Warm_up训练策略

最新推荐文章于 2024-02-21 12:02:11 发布

超级无敌陈大佬的跟班

最新推荐文章于 2024-02-21 12:02:11 发布

阅读量6.7k

点赞数 12

分类专栏： Deep Learning 文章标签：深度学习 pytorch 神经网络

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/chen1234520nnn/article/details/120152226

版权

Deep Learning 专栏收录该内容

34 篇文章 6 订阅

订阅专栏

背景

学习率是最影响性能的超参数之一，如果我们只能调整一个超参数，那么最好的选择就是它。其实在我们的大多数情况下，遇到 loss 变成 NaN 的情况大多数是由于学习率选择不当引起的。

warmup介绍

warmup可以称为训练热身。由于神经网络在刚开始训练的时候是非常不稳定的，因此刚开始的学习率应当设置得很低很低，这样可以保证网络能够具有良好的收敛性。但是较低的学习率会使得训练过程变得非常缓慢，因此这里会采用以较低学习率逐渐增大至较高学习率的方式实现网络训练的“热身”阶段，随着训练的进行学习率慢慢变大，到了一定程度，以设置的初始学习率进行训练，接着过了一些inter后，学习率再慢慢变小；学习率变化：上升——平稳——下降；

warmup具体步骤

启用warm up，设置warm up setp（一般等于epoch*iter_one_epoch），当step小于warm up setp时，学习率等于基础学习率×(当前step/warmup_step)，由于后者是一个小于1的数值，因此在整个warm up的过程中，学习率是一个递增的过程！当warm up结束后，学习率以基础学习率进行训练，再学习率开始递减。

warmup学习率计算公式：

其中base_lr是初始学习率，后面分式就是用来控制warm_up操作的，分子是模型训练当前迭代的step步数，分母中warm_epoch是设置的热身的epoch数(例如另epoch=5)，iter_one_epoch是训练集迭代一个epoch需要的步数。

从上式中可以看出，前warm_epoch个训练阶段，随着step增加，学习率是递增的，一直到warm_epoch时，分子等于分母，此时学习率增长到初始学习率的值，warmup阶段完成。

学习率变化曲线：

应用场景

（1）训练出现NaN：当网络非常容易nan时候，采用warm up进行训练，可使得网络正常训练；

（2）过拟合：训练集损失很低，准确率高，但测试集损失大，准确率低，可用warm up；

应用原理

这个问题目前还没有被充分证明，目前效果有：
（1）有助于减缓模型在初始阶段对mini-batch的提前过拟合现象，保持分布的平稳；
（2）有助于保持模型深层的稳定性。

参考链接：https://blog.csdn.net/weixin_40051325/article/details/107465843

超级无敌陈大佬的跟班

关注

12
点赞
踩
29

收藏

觉得还不错? 一键收藏
2
评论
【深度学习】深度学习基础-Warm_up训练策略

背景学习率是最影响性能的超参数之一，如果我们只能调整一个超参数，那么最好的选择就是它。其实在我们的大多数情况下，遇到 loss 变成 NaN 的情况大多数是由于学习率选择不当引起的。warmup介绍warmup可以称为训练热身。由于神经网络在刚开始训练的时候是非常不稳定的，因此刚开始的学习率应当设置得很低很低，这样可以保证网络能够具有良好的收敛性。但是较低的学习率会使得训练过程变得非常缓慢，因此这里会采用以较低学习率逐渐增大至较高学习率的方式实现网络训练的“热身...
复制链接

扫一扫

专栏目录

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。