梯度下降法综述

最新推荐文章于 2024-08-20 15:10:09 发布

Xiaomin-Wu

最新推荐文章于 2024-08-20 15:10:09 发布

阅读量3.9k

点赞数

分类专栏：搬砖文章标签：梯度下降深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/meanme/article/details/50961620

版权

搬砖专栏收录该内容

5 篇文章 0 订阅

订阅专栏

Gradient Descent Variants

reference: http://sebastianruder.com/optimizing-gradient-descent/

(1)Batch gradient descent:　计算整个数据集上, Cost function 对于parameters的偏导，而后更新梯度；对于convex error surfaces可以得到global minimum,而对于non-convex error surfaces能得到local minimum

(2) Stochastic gradient descent: 计算单个sample上，Cost function对于parameters的偏导，而后更新梯度；相较于BGD，SGD更容易从一个local minimum跳到另一个local minimum（但是当learning rate过小时，performance便和BGD相似）；High variance，更容易使得loss curve产生震荡

(3)Mini-batch gradient descent: 计算whole dataset某个子集(通常设置为50-256)对于paremeters的偏导，而后更新梯度；比SGD更稳定，更易收敛；能够使用高效的矩阵化trick，使得在runing的时候更加efficient

(4)面临几大问题:

1.Learning rate很难选择，太小了收敛很慢，太大了容易在local minimum周围晃动，甚至发散

2.在训练时当loss一直在某个范围摆动时，这时候应该减小learning rate,但是这个trick受数据集属性或者模型的capacity等因素的影响较大，需要认为的精调

3.所用的参数更新都是基于同一个learning rate的，但是当数据集很稀疏，或者features出现的频率有很大不同，这时候我们会希望用较大的learning rate来更新rarely出现的feature,即希望实现feature-wise的learning rate的调整

4.还有一个问题时saddle points 的问题，如下图:

这里写图片描述
下文在SGD指的是Mini-batch gradient descent,其实在其他很多地方也是这样

Gradient descent optimization algorithms

Newton’s method.对于高维问题infeasible，所以下面不讨论

(1)Momentum: 当遇到沟壑问题（一个方向的坡度比其他方向明显要陡峭，大多数情况下都会对应到一个local minimum）时,SGD不会沿着沟壑加速下降到local minimum，而Momentum的想法则是将上一次更新时的梯度乘以一个因数 $\gamma$ (一般设置为0.9)，然后加上此时的梯度，若两个梯度的方向类似，则会加速在这一方向上的移动，即加速了收敛：

$v_t = \gamma v_{t-1} + \eta \nabla_\theta J( \theta)$

$\theta = \theta - v_t$

这里写图片描述

(2)Nesterov accelerated gradient: Momentum的一个问题是盲目，即不判断下一步将要下降到哪，就一直加速下降，所以在坡度开始由下降转为上升时，可能会越过local minimum；Nesterov有效的解决了这个问题，大概意思就是先大概预测下一步要下降到的位置（通过计算 $J( \theta - \gamma v_{t-1} )$ 的梯度判断），而后再做出修正,Nesterov在很多RNN的tasks中都很有效:

$v_t = \gamma v_{t-1} + \eta \nabla_\theta J( \theta - \gamma v_{t-1} )$

$\theta = \theta - v_t$

这里写图片描述
蓝色箭头是Momentum：首先计算当前梯度（短箭头），然后再加上上一步的梯度（长箭头）；棕色箭头是 $J( \theta - \gamma v_{t-1} )$ 的梯度，即预判，然后再做出修正（绿色箭头）

(3)Adagrad:对于不同的timestep（可以理解为第几次更新）以及不同位置的weight(层内或者层间)，Momentum和Nesterov都只能使用同一个learning rate进行更新，这样在处理稀疏数据集的时候（比如word embedding 任务），不能实现lager更新出现不频繁的parameters,small 更新频繁出现的parameters.Adagrad则可以有效改善这一情况：

$\theta_{t+1, i} = \theta_{t, i} - \frac{\eta}{\sqrt{G_{t, ii} + \epsilon}} \cdot g_{t, i}$ , $G_{t} \in \mathbb{R}^{d \times d}$ 是一个对角矩阵，每个对角元素i,i等于前t个timesteps的关于 $\theta_i$ 的梯度的平方的总和， $\epsilon$ (一般设置为 $1e-8$ )用于smoothing,以防分子为0　　　　　

向量化之后:　 $\theta_{t+1} = \theta_{t} - \frac{\eta}{\sqrt{G_{t} + \epsilon}} \odot g_{t}$

Adagrad不需要精调learning rate（一般设置为0.01即可），但是有一个weakness,就是 $\frac{\eta}{\sqrt{G_{t} + \epsilon}}$ 会随着分子的增大(每个对角元素都是正数相加)而逐渐减小，甚至接近于0,使得相应的权重得不到更新

(4)Adadelta: Adadelta是Adagrad的一个拓展，为的是解决Adagrad learning rate减小为接近0的情况，所以相比较与Adagrad对过去所有的梯度的平方进行累加，Adadelta增加了一个限制窗口，大小为ｍ（即只统计前ｍ步的梯度的平方）；而相较于直接计算累加和（需要保留前ｍ步的梯度的平方），Adadelta采用的是计算前面steps的梯度的平方的均值方法：

$E[g^2]_t = \gamma E[g^2]_{t-1} + (1 - \gamma) g^2_t$

$\Delta \theta_t = - \frac{\eta}{\sqrt{E[g^2]_t + \epsilon}} g_{t}$

The authors note that the units in this update (as well as in SGD, Momentum, or Adagrad) do not match, i.e. the update should have the same hypothetical units as the parameter. To realize this, they first define another exponentially decaying average, this time not of squared gradients but of squared parameter updates:

$E[\Delta \theta^2]_t = \gamma E[\Delta \theta^2]_{t-1} + (1 - \gamma) \Delta \theta^2_t$

$\Delta \theta_t = - \frac{RMS[\Delta \theta]_{t}}{RMS[g]_{t}} g_{t}$

$\theta_{t+1} = \theta_t + \Delta \theta_t$

由上述式子可知，Adadelta甚至不需要设置Leaning rate

(5)RMSprop:Adadelta和RMSprop都是为了解决Adagrad learning rate消失的问题，而 RMSprop其实就是上述Adadelta的一部分（算梯度的均值）:

$E[g^2]_t = 0.9 E[g^2]_{t-1} + 0.1 g^2_t$

$\theta_{t+1} = \theta_{t} - \frac{\eta}{\sqrt{E[g^2]_t + \epsilon}} g_{t}$

$\gamma$ 一般设置为0.9, $\eta$ 一般设置为0.001

(6)Adam:Adam除了保留梯度平方的exponentially decaying average $v_t$ ，还保留了梯度的exponentially decaying average $m_t$ ：

$m_t = \beta_1 m_{t-1} + (1 - \beta_1) g_t$

$v_t = \beta_2 v_{t-1} + (1 - \beta_2) g_t^2$

$\hat{m}_t = \frac{m_t}{1 - \beta^t_1}$

$\hat{v}_t = \frac{v_t}{1 - \beta^t_2}$

$\theta_{t+1} = \theta_{t} - \frac{\eta}{\sqrt{\hat{v}_t + \epsilon}} \hat{m}_t$

default values of 0.9 for β1, 0.999 for β2, and $10^{-8}$ for ϵϵ

Visualization of algorithms

这里写图片描述

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。