1.基本/常见的进阶算法有?
AdaGrad,RMSProp,AdaDelta,Adam
2.相比普通的BP算法比较?
- 加入了动量的概念;通俗理解就是:以往的算法lr是静态的,一直不改变,导致模型无法有效的进行收敛;
- 按一个batch来算梯度是不准确;于是加入了动量的概念。认为梯度下降的过程中可以加入惯性。
超级简单理解:就是当前梯度下降方向主要是此前累积的下降方向(保留了以往的信息),并略微偏向当前时刻下的下降方向。利用当前的batch微调最终的更新方向。根据公式一直算到m0.
3.之前是一阶动量,那么二阶动量是?
参考: https://blog.csdn.net/yinyu19950811/article/details/90476956
二阶动量:至今为止所有梯度值的平方和