从动力学角度看优化算法SGD:一些小启示
阅读笔记:
1. 条件允许情况下,在使用SGD时,开始使用小batch size和大学习率,然后让batch size 慢慢增加,学习率慢慢减少。
2.Momentum加速为‘越过’不那么好的极小值点提供了来自动力学的可能性。
阅读笔记:
1. 条件允许情况下,在使用SGD时,开始使用小batch size和大学习率,然后让batch size 慢慢增加,学习率慢慢减少。
2.Momentum加速为‘越过’不那么好的极小值点提供了来自动力学的可能性。