第一节描述了梯度下降的过程中可能出现的问题。saddle point是什么,并说明了如何逃离saddle point,最后比较saddle point和local minima的区别,或许在更高维度的空间,local minima就是一个saddle point
第二节比较了small batch和large batch对于training 結果的影響,到底哪一種是更好的testing data,各有優點
第三节则是从不同参数采用不同的learning rate出发,对结果进行优化
第四节讨论了分类和回归的关系以及softmax函数