Adam

Adam方法同样融合了 AdaGrad和RMSProp,更新公式如下:

wt=wt1αmt^vt^+ϵ

其中 t 表示次数,mt^ mt 的纠正, vt^ vt 的纠正
mt^=mt1βt1
vt^=vt1βt2

β1 β2 是常数,控制指数衰减, mt 是梯度的指数移动均值,通过梯度的一阶矩求得。 vt 是平方梯度,通过梯度的二阶矩求得。 mt vt 的更新如下:
mt=β1mt1+(1β1)gt
vt=β2vt1+(1β2)g2t

gt 为一阶导。以上所有参数的默认设置为: α=0.001β1=0.9β2=0.999ϵ=108

在文章中,指明 mt^/vt^ 当值很小时,也意味这对目前的方向越不确定,就会有更小的步长,也是一种自动退火的形式。
参考:
Kingma D P, Ba J. Adam: A method for stochastic optimization[J]. arXiv preprint arXiv:1412.6980, 2014.

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值