Adagrad方法-动态改变梯度下降的学习率
最佳步长
与最优解的距离和一次导数成正比。与二次导数成反比。
Adagrad和最优步长的关系
以平方和的开方代替了二次微分(性质上接近)
Stochastic Gradient Decent 随机梯度下降
区别: 看20个数据走一步 、 看1个数据走一步(进行20次)
优点: 降低求导的复杂度
特征缩放(归一化)
意义:对于不同参数,学习率是相同的。如果两个微分大小相差过大,一个学习率就很难做到很好的统一。(对于平缓的微分,学习率应该大。对于陡峭的微分,学习率应该小。这两者是不能同步的)
梯度下降法的由来
泰勒展开后的求最值问题,很妙呢。
梯度下降的缺点-梯度消失
局部最优、平台、顶点