深度学习中的RMSprop算法原理

最新推荐文章于 2024-08-01 00:49:17 发布

Paul-LangJun

最新推荐文章于 2024-08-01 00:49:17 发布

阅读量3.5k

点赞数 2

分类专栏：神经网络概率与统计文章标签：神经网络机器学习深度学习

本文链接：https://blog.csdn.net/gaoxueyi551/article/details/105379447

版权

神经网络同时被 2 个专栏收录

45 篇文章 10 订阅

订阅专栏

概率与统计

21 篇文章 0 订阅

订阅专栏

在 https://blog.csdn.net/gaoxueyi551/article/details/105238182 一文中，说明了基于Momentum的算法，本文介绍的RMSprop算法的引入背景和Momentum算法相同，底层理论依然是指数加权平均。

但是，两者优化思路存在些微差别。为了和Momentum算法中的符号相区别，引入向量 $\large s_w$ ，并设 $w=\left [ w_1,w_2,w_3 \right ]^T$ ，令

$s_w = \beta s_w + (1-\beta )[\frac{\partial C}{\partial w}]^2$

其中， $[\frac{\partial C}{\partial w}]^2$ 表示对向量的各个分量分别计算平方，不妨令 $\Delta w=\frac{\partial C}{\partial w}$ ，则得到如下式所示向量，

$\begin{bmatrix} \Delta w^2_1\\ \Delta w^2_2\\ \Delta w^2_3 \end{bmatrix}$

则 $\large s_w$ 展开也是一个向量，每个分量是权重对应分量值的平方的指数加权移动平均，

$\begin{bmatrix} s_w_1\\ s_w_2\\s_w_3 \end{bmatrix}$

其中，分量值较大的表示权重对应分量值的平均变化幅度较大，分量值较小的表示权重对应分量值的平均变化幅度较小。

基于上述定义，给定学习率 $\eta$ ，基于RMSprop的梯度更新规则为，

$\begin{bmatrix} w^{'}_1\\ w^{'}_2\\ w^{'}_3 \end{bmatrix}\leftarrow \begin{bmatrix} w_1\\ w_2\\ w_3 \end{bmatrix} \ast \begin{bmatrix} \frac{\eta }{\sqrt{s_w_1}}\\ \\ \frac{\eta}{\sqrt{s_w_2}}\\ \\ \frac{\eta }{\sqrt{s_w_3}}\\ \end{bmatrix}$

对于偏置的更新方法类似，不再详述。

Momentum 和 RMSprop算法的共同点如下：

1、减小了梯度在变化幅度较大的分量上的更新速度，提高了变化幅度较小的分量上的更新速度；

2、都对梯度更新的方向进行了优化；

3、长期的优化效果一致，即加快收敛；

4、都使用了指数移动加权平均来对历史梯度信息做处理。

两者的区别如下：

1、前者利用了历史梯度的指数移动加权平均，没有显式的考虑梯度的范数大小，后者是对历史梯度各个分量的二范数进行指数移动加权平均，显式的在梯度各个分量的数值大小上做手脚，在梯度值较大的分量上减小更新步伐，在梯度值较小的分量上增大更新步伐，没有显式的考虑梯度方向。

2、从RMSprop公式上看，它可以实现学习率自适应调整，变化较大的梯度分量上的学习率会自动减小，变化较小的梯度分量上的学习率会自动增大。