目录
神经网络优化中的挑战
Critical Point临界点
gradient为零的点统称为critical point。对抗临界点的两个方法就是batch 和 momentum
在Optimization的过程中,随着参数不断的update,training loss可能不会再下降,但是此时的loss仍然不符合要求(上图的蓝线)。比如把deep network跟linear model或shallow network比较之后发现发现效果并没有变的更好,就好像deep network没有发挥它完整的力量,此时Optimization显然是有问题的。有时候甚至发现一开始model就train不起来。一开始不管怎么update参数,loss都无法下降(上图中的橙线)。
原因可能是梯度接近于 0,导致参数更新的步伐接近于0,所以参数不动,loss也就降不下去。如果是卡在local minima,那可能就没有路可以走了,但如果是卡在saddle point的话,saddle point旁边还是有路可以走的,只要逃离saddle point,就有可能让loss更低