1.Set the learing rate carefully
learning rate:理解为更新参数时的步长,就是你可以按照梯度下降方向一小步一小步地走,也可以一大步一大步地走,但是如果步长设置的不合适,可能就会错过最优的参数。
调整learning rate的简单准则:
1)随着参数的更新越来越小
2)不同参数的learning rate不同
Adagrad可以根据不同的参数设置学习率,g是L对参数w的微分
2.Stochastic Gradient Descent
正常更新参数是将训练集中所有样本的loss都算出来都再更新,而这里是每计算出一个样本的loss就进行参数更新。
3.Feature Scaling
1)目的:让不同的输入,例如x1和x2的分布尽可能一致(左图到右图)
2)这样做的原因:提高梯度下降算法的效率。如果x2的取值比x1普遍更大,那么x2对输出y的影响就比x1大,w2对loss的影响也就越大,因此loss对w2的微分是更陡峭的。而这种椭圆形的loss进行梯度下降的效率是很低的。