逐参数自适应学习率

前面博客中提到的一阶参数更新方法,对于每个参数的学习率都相同,因此相关研究人员开始考虑,是否可以自适应的设定学习率。目前,常用的方法有以下三种:

Adagrad

Adagrad方法总的来说是梯度大的方向的学习率比梯度小的方向的 学习率要小,如果用公式来表示:

cache += dx**2
x += - learning_rate * dx / (np.sqrt(cache) + eps)

其中,eps是为了防止分母为0,一般可以取1e-4到1e-8之间。

但是,Adagrad存在着过早停止学习的问题,这主要是由于cache不断累积,如果在某一个位置不能继续更新时,在以后的时刻也不会再更新。

RMSprop

这个算法可以认为是Adagrad算法过早停止学习的改进,主要是将cache做了修改,令下一时刻的cache只继承一部分的上一时刻的cache,比如0.9或0.99,这样就不会令学习率单调下降,用公式表示如下:

cache = decay_rate * cache + (1 - decay_rate) * dx**2
x += - learning_rate * dx / (np.sqrt(cache) + eps)

该公式在平时的应用中非常高效

Adam

Adam算法是最近提出的算法,通常情况下可以作为默认的逐参数自适应学习率方法。其公式可以表示如下:

m = beta1*m + (1-beta1)*dx
v = beta2*v + (1-beta2)*(dx**2)
x += - learning_rate * m / (np.sqrt(v) + eps)

它与RMSprop的不同在于用m代替了dx,m也是dx的某种程度的积累。Adam更新算法还包含了一个偏置矫正机制,主要是因为m,v在初始化时为0,这样会造成学习率在没有完全热身之前存在偏差,因此需要采取一些补偿措施。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值