一.函数参数
__init__(
learning_rate=0.001,
beta1=0.9,
beta2=0.999,
epsilon=1e-08,
use_locking=False,
name='Adam'
)
- learning_rate:学习率参数
- beta1:一阶矩估计的指数衰减率
- beta2:二阶矩估计的指数衰减率
- epsilon:一个非常小的数,防止除以零
- use_locking:若为真则使用锁进行更新操作
- name:使用梯度时创建的操作的可选名称,默认为 “Adam”
二.算法步骤
更新网络参数的最后一式中,
η
\eta
η 即函数的输入 learning rate 。由此可见,learning rate 参数实际上是对网络参数更新的上限进行约束,实际的网络学习率是随 loss 变化而动态变化的。