RMSprop
你们知道了动量(Momentum)可以加快梯度下降,还有一个叫做RMSprop的算法,全称是root mean square prop算法,它也可以加速梯度下降,我们来看看它是如何运作的。
回忆一下我们之前的例子,如果你执行梯度下降,虽然横轴方向正在推进,但纵轴方向会有大幅度摆动,为了分析这个例子,假设纵轴代表参数b,横轴代表参数W,可能有W_1,W_2或者其它重要的参数,为了便于理解,被称为b和W。
所以,你想减缓b方向的学习,即纵轴方向,同时加快,至少不是减缓横轴方向的学习,RMSprop算法可以实现这一点。
在第t次迭代中,该算法会照常计算当下mini-batch的微分dW,db,所以我会保留这个指数加权平均数,我们用到新符号S_dW,而不是v_dW,因此S_dW=βS_dW+(1-β)dW2,澄清一下,这个平方的操作是针对这一整个符号的,这样做能够保留微