背景:很多优化器本身能根据参数更新次数调整学习率,有时可能会导致很难收敛到最优,可以选择几个学习率组合进行学习
注意点:每天切换学习率的时候,最好重置optimizer,因为不同的学习率,优化器保存的状态参数不同,刚切换学习率的时候可能会收敛不稳定,如果重置了optimizer不会导致在切换时波动。
背景:很多优化器本身能根据参数更新次数调整学习率,有时可能会导致很难收敛到最优,可以选择几个学习率组合进行学习
注意点:每天切换学习率的时候,最好重置optimizer,因为不同的学习率,优化器保存的状态参数不同,刚切换学习率的时候可能会收敛不稳定,如果重置了optimizer不会导致在切换时波动。