文章目录 一、local minima 和 saddle point 1.1 如何知道是卡在local minima 还是 saddle point 1.2 H可能能告诉我们更新参数的方向 二、 Batch 和 Momentum 2.1 batch 2.2 Momentum 三、自动调整学习率 四、 Classification 4.1 classification as regression 4.2 loss of classification 五、批次标准化(Batch Normalization) 5.1 Feature Normalization 5.2 Considering Deep Learning 5.3 Batch Normalization 一、local minima 和 saddle point loss不下降是什么原因?梯度为0(critical point) 但local minima 的情况很少,一般saddle point 1.1 如何知道是卡在local minima 还是 saddle point 用泰勒级数模拟Loss在该点附近的形状 2. 根据Hessian判断形状:如果H正定则是local minima 1.2 H可能能告诉我们更新参数的方向 二、 Batch 和 Momentum