「Deep Learning」Note on SGDR: Stochastic Gradient Descent with Warm Restarts

最新推荐文章于 2024-05-27 09:44:01 发布

小锋子Shawn

最新推荐文章于 2024-05-27 09:44:01 发布

阅读量3.1k

点赞数 1

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/dgyuanshaofeng/article/details/88564876

版权

本文介绍了SGDR（Stochastic Gradient Descent with Warm Restarts）方法，这是一种在梯度优化中应用重启动技术以加速收敛的策略。通过在每次重启动时以略小的学习率开始并逐渐降低，研究者在CIFAR-10和CIFAR-100等数据集上取得了新的记录。SGDR利用余弦退火策略，相较于传统学习率调整策略，可以减少2到4倍的epochs，提高训练效率。

摘要由CSDN通过智能技术生成

QQ Group: 428014259
Tencent E-mail：403568338@qq.com
http://blog.csdn.net/dgyuanshaofeng/article/details/88564876

余弦退火
PyTorch的学习率策略选择有这个
好不好用，靠实际使用吧

作者：Ilya Loshchilov, Frank Hutter
单位：University of Freiburg

0 摘要

重启动restart技术在无梯度优化中被常用。粒子群重启动restart则在梯度优化中很受欢迎，用于加速收敛。作者在论文中提出一种简单的重启动技术，在任何时候都可以提升SGD的性能。在CIFAR-10和CIFAR-100上进行了实验，并取得了新的记录，3.14%和16.21%。另外，在EEG数据和下采样版本ImageNet数据上，也证明了这种方法具有优势。

1 介绍

提及残差神经网络在很多数据集上取得世界一流的结果，并且使用的是简单的SGD with Momentum/Nesterov’s Momentum。论文中Figure 1举例了"step"学习率调整策略。作者提出周期模拟温暖重启动SGD，在每次重启动，学习率初始化为比上一次稍微小的某值，然后逐渐减小这个值。论文中提及比目前使用的学习率调整策略，取得较好的结果，温暖重启动SGD会减少2倍到4倍epochs。

2 相关工作

2.1 无梯度优化中的重启动</

最低0.47元/天解锁文章

关注

1
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
「Deep Learning」Note on SGDR: Stochastic Gradient Descent with Warm Restarts

QQ Group: 428014259Tencent E-mail：403568338@qq.comhttp://blog.csdn.net/dgyuanshaofeng/article/details/88564876余弦退火PyTorch的学习率策略选择有这个[1] SGDR Stochastic Gradient Descent with Warm Restarts ICLR 20...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。