优化方法_momentumoptimizer-CSDN博客

本文链接：https://blog.csdn.net/u011144848/article/details/90671344

mini-batch 梯度下降

1、为什么要使用mini-batch
和batch相比，mini-batch计算开销较小、计算速度快，适应与大批量的数据集，支持在线学下。
和随机梯度下降相比，mini-batch更容易收敛，梯度下降的有效性较大。
在这里插入图片描述
batch梯度下降如下图：

momentum

1、为什么使用Momentum
mini-batch gradient 中，每一个小批量的数据集都是全部数据的子集，其分布不一定符合数据的整体分布，因此在梯度下降的时候会产生震荡，影响学习效率。因此使用momentum 消减mini-batch 梯度下降的震荡。
使用momentum 的更新规则：
L 表示第L层
$v_{dW^{[l]}}=\beta v_{dW^{[l]}}+(1-\beta)dW^{[l]}$
$W^{[l]}=W^{[l]}-\alpha v_{dW^{[l]}}$

Adam

adam 是一个比较强大的优化算法，

$\begin{cases} v_{W^{[l]}} = \beta_1 v_{W^{[l]}} + (1 - \beta_1) \frac{\partial J }{ \partial W^{[l]} } \\ v^{corrected}_{W^{[l]}} = \frac{v_{W^{[l]}}}{1 - (\beta_1)^t} \\ s_{W^{[l]}} = \beta_2 s_{W^{[l]}} + (1 - \beta_2) (\frac{\partial J }{\partial W^{[l]} })^2 \\ s^{corrected}_{W^{[l]}} = \frac{s_{W^{[l]}}}{1 - (\beta_2)^t} \\ W^{[l]} = W^{[l]} - \alpha \frac{v^{corrected}_{W^{[l]}}}{\sqrt{s^{corrected}_{W^{[l]}}}+\varepsilon} \end{cases}$
其中 $\beta_1、\beta_2$ 时两个超参数
可以在tensorflow 中使用：tf.train.AdamOptimizer