人工智能-损失函数:梯度下降算法【SGD-->SGDM(梯度动量)-->AdaGrad(动态学习率)-->RMSProp(动态学习率)-->Adam(动态学习率+梯度动量)】、梯度下降优化技巧
一、梯度下降算法
- 优化算法,入门级必从SGD学起,老司机则会告诉你更好的还有AdaGrad/AdaDelta,或者直接无脑用Adam。
- 深度学习优化算法经历了 SGD -> SGDM -> AdaGrad -> AdaDelta -> RMSProp ->Adam -> Nadam 这样的发展历程。
1、BGD(Batch Gradient Descent,批量梯度下降法)
每次迭代都需要把所有样本都送入,这样的好处是每次迭代都顾及了全部的样本,目的是全局最优化,但是有可能达到局部最优。