学习来源:https://www.bilibili.com/video/BV1JA411c7VT?p=8
神经网络训练
原因:training loss updates -not small enough(参数loss 为0,gradient is close to zero(loss 不下降卡在crtical point->有没有办法知道是卡在local minima(无路可走) 还是 saddle point(有路可走))
判断方法:线性代数
泰勒展开式
Optimization with batch
将两个batch size 结合
Momentum
Vanilla(一般的) gradient descent遇到新的参数,计算一次 gradient,再向gradient 的反方向计算一次参数
Gradient descent+momentum
Gradient 的反方向加上前一步方向的结果
Error surface
自动调整学习速率adaptive learning rate
training卡住可能是loss不能再下降了,不是critical points
就算同一个参数同一个方向,learning rate也会随着时间而改变
Adagra 纵轴方向初始大,但后面累积了很小的gradent,又变大,摩擦力又变小
解决方法:learning rate scheduling,让learning rate 和时间有关
Learning rate decay
Warm up,让learning rate 先变大后变小
可能原因:at the beginning ,the estimate of σ has large variance
Classification 分类