一、局部最小值与鞍点
逃离saddle point 方法
一、看Hessian
eigen values 特征值
例子:y=w1w2x
training data y=1 x=1
Hesssian的取法
如果遇到saddle point 还可以看Hession Hession告诉我们更新参数的方向
localminima 可能在更高维度上是saddle point
事实上 实验中绝大多数甚至是全部都是 saddle point
minimum ratio =正的特征值/全部特征值 最高不到0.6
二、批次(batch)与动量(momentum)
1.Batch
**
每更新一个参数叫1update ,所有的batch算完叫1epoch。
**
**small batch与large batch比较 **
2.动量(momentum)
一般的gradient descent
也可以说update方向为之前所有Gradient反方向的总和
三、自动调整学习率(learning rate)
训练卡住,可能既不是local minima,也不是saddle point
训练卡住并不代表小的梯度
具体操作
α为 Hyperparameters自己设定的参数
- 现在常用的optimization方法:
动态的learning rate方法
总结optimization
四、损失函数Loss的影响
Soft-max操作方法
为什么用Cross-entropy