Adashift论文解读

最新推荐文章于 2024-07-23 22:38:20 发布

起个名字好难__

最新推荐文章于 2024-07-23 22:38:20 发布

阅读量258

点赞数

分类专栏：论文阅读文章标签：神经网络深度学习

本文链接：https://blog.csdn.net/qq_35531985/article/details/105163406

版权

5 篇文章 0 订阅

订阅专栏

论文提出了一个估计梯度对神经网络影响的函数 $net(g_t)$ ，这个函数基于Adam二阶动量更新规则
在这里插入图片描述
作者根据该公式分析，指出Adam存在的几个个问题：

神经网络在通过Adam优化的过程中，二阶动量 $v_t$ 与梯度 $g_t$ 存在正相关，所以当一个 $g_t$ 更新到错误方向时， $v_t$ 更新也会出现错误，见公式 $v_t=\beta_2v_{t-1}+(1-\beta_2)g_t^2$ 。
Adam的步长更新存在不均衡问题，见公式 $\frac{\alpha}{\sqrt{v_t}}$ ，即梯度越大的时候，步长更新越小，梯度越小是步长更新越大。最终导致了Adam算法可能不收敛。
因此，在Adam的优化中，正确的梯度方向 $C$ 对结果产生的影响小于错误的梯度方向 $- 1$ 。

作者提出来解决方案，

将 $g_t$ 与 $v_t$ 解相关，使用 $g_{t-n}$ 计算 $v_t$ 。
将 $g_t(t=1......n)$ ，分为两部分，分别用来计算一阶动量 $m_t$ 与二阶动量 $v_t$ ，即将 $v_t$ 与 $m_t$ 解相关（这块没理解为啥）。
对神经网络不同的层的参数更新使用不同的步长，每层一个步长。每层的参数更新只使用这一层前面参数。

存在的问题：
为何 $g_t$ 与 $g_{t-n}$ 相互独立，我认为，这两个变量必然是 $g_t$ 依赖于 $g_{t-n}$ ，因为每次更新 $\theta$ 必然依赖于 $g$ ，新的 $\theta_{t+1}$ 更新依赖于 $g_t$ ， $\theta_{t+1}$ 又影响 $g_{t+1}$ ，所以 $g_t、g_{t+1}$ 相互依赖。

关注

专栏目录