优化器
SGD优化器:随机梯度下降优化器
定义:随机梯度下降优化器SGD是对一个小的批次(就是一个batch)训练,计算出它们的平均梯度之后再对参数进行优化。
SGD参数:
lr:(float)学习率
momentum:(float)用于加速SGD在相关方向上前进,并抑制震荡
decay:(float)每次参数更新后学习率衰减值
nesterov:(boolean)是否启用nesterov动量
Adam优化器:
Adam是一种可以替代传统随机梯度下降过程的一阶优化算法,它能基于训练数据迭代的更新神经网络权重。
参数:
lr:学习率
beta_1:通常接近1, 一阶矩估计
beta_2:通常接近1, 二阶矩估计
decay:每次参数更新后学习率衰减值