【学习笔记5】New Optimizers for Deep Learning(1) 深度学习的优化方法
(一)Background Knowledge 1、SGD算法 2、SGDM算法用上一步的movement - 在此点的梯度,得到在此点上的movement momentum就是一个惯性,使加速度为0(即梯度为0)时,仍可以往前移动,避免了梯度消失。(相当于有一个惯性指数) 3、Adagrad自适应梯度算法当gradient突然变得很大时(较陡峭),学习率就变得很小,避免梯度爆炸;当gradient突然变得很小时(较平
复制链接