1、学习率真的是个重要的东西,复现论文的实验,第一个实验按照论文的参数设置学习率,很快跑出结果。第二个实验跑了几千个epoch,要不是实验室的服务器,我的电脑早就炸了。第一个实验分类结构只有7个类,第二个有130个类,原以为是类的数量太多导致的收敛速度很慢。可是增大学习率之后才发现我真的是个智障等那么久,收敛速度那是蹭蹭的涨啊。
2、学习率开始可以设置大一点,后期可以适当变小,pytroch可以使用torch.optim.lr_scheduler来进行学习率的递减策略。
3、有的学习率跑不出来的实验,换个学习率就好了。