优化器
Adam
梯度下降法参数更新公式:
θt+1=θt−η⋅∇J(θt)
其中,η是学习率,θt 是第 t 轮的参数,J(θt) 是损失函数,∇J(θt)是梯度。
在最简单的梯度下降法中,学习率 η是常数,是一个需要实现设定好的超参数,在每轮参数更新中都不变,在一轮更新中各个参数的学习率也都一样。
为了表示简便,令 gt=∇J(θt),所以梯度下降法可以表示为:
θt+1=θt−η⋅gt
Adam,是梯度下降法的变种,用来更新神经网络的权重。
Adam 更新公式:
默认值为 η=0.001,β1=0.9,β2=0.999,ϵ=1e−8。其中,β1 和 β2 都是接近 1 的数,ϵ 是为了防止除以 0。gt 表示梯度。
前两行是对梯度和梯度的平方进行滑动平均,即使得每次的更新都和历史值相关。
中间两行是对初期滑动平均偏差较大的一个修正,叫做 bias correction,当 t 越来越大时,1−βt1 和 1−βt2 都趋近于 1,这时 bias correction 的任务也就