一、学习率
学习率决定了每步权重更新对当前权重的改变程度:
,
其中E(w)为我们优化的损失函数,是学习率。
学习率太小,更新速度慢;学习率过大,可能跨过最优解。因此,在刚开始训练,距离最优解较远时可以采用稍大的学习率,随着迭代次数增加,在逼近最优解的过程中,逐渐减小学习率。
在caffe的solver文件中,lr_policy不推荐fixed (保持base_lr不变),可以选择如下方案:
1、阶跃式的:
- multistep: 根据后面设定的stepvalue,每次达到stepvalue,新的学习率变为之前的学习率*gamma,如
base_lr: 0.005
lr_policy: "multistep"