作者:Vitaly Bushaev编译:ronghuaiyang
导读
学习率是深度学习中非常重要的超参数之一,也是我们会经常调整的超参数,通过这篇文章,我们会了解一些技巧,只是通过对学习率的设置,就能够获得性能的提升,是不是很酷?
I. 介绍
大多数优化算法(如SGD、RMSprop、Adam)都需要设置学习率:这是训练深度神经网络最重要的超参数。选择学习率的简单方法是尝试一堆数字,然后使用看起来效果最好的那个,当训练不再能改善损失时,手动减少它。
在这篇文章中,我解决了在使用这种(或类似的)方法时出现的几个问题,并描述了我从Jeremy Howard那里学到的可能的解决方案。
II. 问题是什么?
当你开始训练你的神经网络时,你可能会遇到一些问题:
- 为你的学习率选择正确的值可能会成为一个相当繁琐的过程,有时它更像是一门艺术而不是科学。
- 当你为超参数选择正确的值时,你会发现训练深层神经网络需要很长时间。这是深度学习的一个常见问题,与学习率没有直接关系,但是我将展示如何选择更好的学习率策略,通过减少优化器必须进行的迭代次数,从而收敛到一个好的局部最小值,从而帮助你减少训练时间。
让我们一次只关注一个问题。
III. 为学习率选择一个正确的值
虽然有一些很好的指导方针来估计一个学习率的合理起点,但是它们并没有提供找到它的通用算法,而且大多数是基于特定场景的,或者有其他的限制,并且不能应用于所有的情况下。
Les