QQ Group: 428014259
Tencent E-mail:403568338@qq.com
http://blog.csdn.net/dgyuanshaofeng/article/details/88564876
余弦退火
PyTorch的学习率策略选择有这个
好不好用,靠实际使用吧
作者:Ilya Loshchilov, Frank Hutter
单位:University of Freiburg
0 摘要
重启动restart技术在无梯度优化中被常用。粒子群重启动restart则在梯度优化中很受欢迎,用于加速收敛。作者在论文中提出一种简单的重启动技术,在任何时候都可以提升SGD的性能。在CIFAR-10和CIFAR-100上进行了实验,并取得了新的记录,3.14%和16.21%。另外,在EEG数据和下采样版本ImageNet数据上,也证明了这种方法具有优势。
1 介绍
提及残差神经网络在很多数据集上取得世界一流的结果,并且使用的是简单的SGD with Momentum/Nesterov’s Momentum。论文中Figure 1举例了"step"学习率调整策略。作者提出周期模拟温暖重启动SGD,在每次重启动,学习率初始化为比上一次稍微小的某值,然后逐渐减小这个值。论文中提及比目前使用的学习率调整策略,取得较好的结果,温暖重启动SGD会减少2倍到4倍epochs。