怎么看神经网络过早收敛_神经网络中 warmup 策略为什么有效；有什么理论解释么？...

最新推荐文章于 2023-11-08 17:21:10 发布

狗蛋家的男人

最新推荐文章于 2023-11-08 17:21:10 发布

阅读量727

点赞数

文章标签：怎么看神经网络过早收敛

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42566424/article/details/112512758

版权

点击上方“MLNLP”，选择“星标”公众号

重磅干货，第一时间送达

编辑：忆臻

https://www.zhihu.com/question/338066667

本文仅作为学术交流分享，如果侵权，会删文处理

笔者在知乎上发现了一个叫“神经网络中 warmup 策略为什么有效；有什么理论解释么？”的问题，很有意思，下面与大家分享一些大佬们的见解，希望对你的研究有帮助。

问题备注：

使用 SGD 训练神经网络时，在初始使用较大学习率而后期切换为较小学习率是一种广为使用的做法，在实践中效果好且最近也有若干文章尝试对其进行了理论解释。

而 warmup 策略则与上述 scheme 有些矛盾。warmup 需要在训练最初使用较小的学习率来启动，并很快切换到大学习率而后进行常见的 decay。那么最开始的这一步 warmup 为什么有效呢？它的本质含义是什么，是否有相关的理论解释？进一步的，能否通过良好的初始化或其他方法来代替 warmup 呢？

知乎高质量回答:

作者：香侬慧语科技https://www.zhihu.com/question/338066667/answer/771252708

这个问题目前还没有被充分证明，我们只能从直觉上和已有的一些论文[1,2,3]得到推测：

有助于减缓模型在初始阶段对mini-batch的提前过拟合现象，保持分布的平稳
有助于保持模型深层的稳定性

下面来看一下为什么warmup会有这样的效果。

首先，[1]告诉我们，当我们的mini-batch增大的时候，learning rate也可以成倍增长，即，mini-batch大小乘以k，lr也可以乘以k。这是为什么呢？比如现在模型已经train到第t步，权重为，我们有k个mini-batch，每个大小为n，记为。下面我们来看，以学习率训k次

最低0.47元/天解锁文章

狗蛋家的男人

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
怎么看神经网络过早收敛_神经网络中 warmup 策略为什么有效；有什么理论解释么？...

点击上方“MLNLP”，选择“星标”公众号重磅干货，第一时间送达编辑：忆臻https://www.zhihu.com/question/338066667本文仅作为学术交流分享，如果侵权，会删文处理笔者在知乎上发现了一个叫“神经网络中 warmup 策略为什么有效；有什么理论解释么？”的问题，很有意思，下面与大家分享一些大佬们的见解，希望对你的研究有帮助。问题备注：使用 SGD 训练...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。