学习率衰减策略 https://zhuanlan.zhihu.com/p/475824165 在训练网络时,学习率用来控制参数的更新速度,使用小的学习率,参数的更新速度就会比较慢,也有可能导致模型停在局部极小值上,不利于跳出去寻找一个更好的局部极小值;使用的学习率过大时,参数在搜索过程中会出现震荡,可能在局部最优值附近震荡,网络不能收敛,也可能会越过最优参数,导致模型找不到好的参数。在训练时一般都选择一定的学习率衰减策略,在初期学习率大一些,随着训练的进行逐渐减小。 https://zhuanlan.zhihu.com/p/475824165