深度学习中的RMSprop算法原理

    在 https://blog.csdn.net/gaoxueyi551/article/details/105238182 一文中,说明了基于Momentum的算法,本文介绍的RMSprop算法的引入背景和Momentum算法相同,底层理论依然是指数加权平均。

    但是,两者优化思路存在些微差别。为了和Momentum算法中的符号相区别,引入向量 \large s_w ,并设 w=\left [ w_1,w_2,w_3 \right ]^T,令

                                                                   s_w = \beta s_w + (1-\beta )[\frac{\partial C}{\partial w}]^2

    其中,[\frac{\partial C}{\partial w}]^2 表示对向量的各个分量分别计算平方, 不妨令 \Delta w=\frac{\partial C}{\partial w},则得到如下式所示向量,

                                                                                      \begin{bmatrix} \Delta w^2_1\\ \Delta w^2_2\\ \Delta w^2_3 \end{bmatrix}

    则 \large s_w 展开也是一个向量,每个分量是权重 w 对应分量值的平方的指数加权移动平均,

                                                                                       \begin{bmatrix} s_w_1\\ s_w_2\\s_w_3 \end{bmatrix}

    其中,分量值较大的表示权重 w 对应分量值的平均变化幅度较大,分量值较小的表示权重 w 对应分量值的平均变化幅度较小。

    基于上述定义,给定学习率 \eta,基于RMSprop的梯度更新规则为,

                                                                        \begin{bmatrix} w^{'}_1\\ w^{'}_2\\ w^{'}_3 \end{bmatrix}\leftarrow \begin{bmatrix} w_1\\ w_2\\ w_3 \end{bmatrix} \ast \begin{bmatrix} \frac{\eta }{\sqrt{s_w_1}}\\ \\ \frac{\eta}{\sqrt{s_w_2}}\\ \\ \frac{\eta }{\sqrt{s_w_3}}\\ \end{bmatrix}

  对于偏置的更新方法类似,不再详述。

  Momentum 和 RMSprop算法的共同点如下:

1、减小了梯度在变化幅度较大的分量上的更新速度,提高了变化幅度较小的分量上的更新速度;

2、都对梯度更新的方向进行了优化;

3、长期的优化效果一致,即加快收敛;

4、都使用了指数移动加权平均来对历史梯度信息做处理。

  两者的区别如下:

1、前者利用了历史梯度的指数移动加权平均,没有显式的考虑梯度的范数大小,后者是对历史梯度各个分量的二范数进行指数移动加权平均,显式的在梯度各个分量的数值大小上做手脚,在梯度值较大的分量上减小更新步伐,在梯度值较小的分量上增大更新步伐,没有显式的考虑梯度方向

2、从RMSprop公式上看,它可以实现学习率自适应调整,变化较大的梯度分量上的学习率会自动减小,变化较小的梯度分量上的学习率会自动增大。

   

  • 2
    点赞
  • 17
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值