(解释:在测试数据集20层network比56层的loss 更小,考虑over fitting(过拟合)的原因? 答案是不一定的,要再看看训练集,训练集中20层layer还是比56层低。对于训练集来说,20层能拟合的数据,56层网络(函数更为复杂精细)应该更可以拟合精确使得loss function 的值更小,但现在更大,原因应该不是model bias 的问题,所以应该是optimization issue。也不是过拟合的问题,过拟合主要的现象是在训练集loss小测试集loss大)
Overfitting
解决over fitting方法:
(1)增加训练集
(2)Date augmentation
(3)不要让你的model more flexible
constrain your model
但是不要constrain too much
如果在critical point 是属于Saddle point,那么可以通过找Hessian matrix 的eigenvalue 和eigenvector进行下一步梯度下降。
Full batch:等于没有bach 只update一次参数,时间长
Batch size =1 :看1个example就update 一次参数
vanilla :一般的
加上
解释:learning rate大的时候会在local minima的梯度线左右两旁来回反复横跳(可以想象成山谷),learning rate 小的时候可以收敛到minima对于的梯度线上,但由于rate太小,始终无法靠近目标点(“×”)。
为什么要用 warm up的可能解释?