深度学习中的优化算法

写在前面

深度学习在很多情况下都涉及优化。
  寻找神经网络上的一组参数 θ \theta θ,它能显著地降低代价函数 J ( θ ) J(\theta) J(θ),该代价函数通常包括整个训练集上的性能评估和额外的正则化项。
  机器学习是一个高度依赖经验的过程,伴随着大量迭代的过程,你需要训练诸多模型,才能找到合适的那一个,所以,优化算法能够帮助你快速训练模型。
  深度学习没有在大数据领域发挥最大的效果,我们可以利用一个巨大的数据集来训练神经网络,而在巨大的数据集基础上训练速度很慢。

Mini-batch梯度下降法

之前的Batch梯度下降法是每次把整个训练集拿来训练,当训练集很大,比如上百万时,处理速度是很慢的。可以把训练集分割为小一点的子训练集,这些子集被取名为mini-batch。对于每一个mini-batch来说,梯度下降过程和之前的batch梯度下降法是一样的,只不过是样本数量变少了。执行完整个训练集称为进行“1 epoch”的训练,意味着遍历了整个训练集。
  如果你有一个较大的数据集,那么mini-batch梯度下降法比batch梯度下降法运行地更快。batch梯度下降法一次遍历只做一次梯度下降,而mini-batch梯度下降法一次遍历可以做多次梯度下降。

Mini-batch梯度下降法的理解

这里写图片描述
  使用batch梯度下降法时,每次迭代都需要遍历整个训练集,可以预期每次迭代成本都会下降,如果在某次迭代中增加了,那肯定出了问题,可能是你的学习率太大。
  使用mini-batch梯度下降法,如果你做出成本函数在整个过程中的图,则并不是每次迭代都是下降的,因为每次迭代都在训练不同的样本集或者说训练不同的mini-batch。作出图型,你可能会看到整体趋势是下降的,但是会出现波动。

mini-batch size

如果mini-batch的大小等于样本大小m,其实就是batch梯度下降法。
  如果mini-batch的大小为1,这叫做随机梯度下降法。随机梯度下降法永远不会收敛,而是会一直在最小值附近波动,但他并不会达到最小值并停留。且会失去向量化带来的加速,因为一次只处理一个样本,效率过于低下。总之随机梯度下降法计算得到的并不是准确的一个梯度,容易陷入到局部最优解中
  实际上选择的mini-batch大小在二者之间,如果训练集较小(小于2000个样本),直接使用batch梯度下降法。一般的mini-batch大小为64到512,考虑到电脑内存设置和使用的方式,如果mini-batch大小是2的n次方,代码会运行地快一些。
  最后需要注意的是在这里的mini-batch中,要确保每一个mini-batch符合CPU/GPU内存,这取决于你的应用方向以及训练集的大小。

指数加权平均

指数加权平均原理参考 指数平滑模型

在优化算法中的本质作用

从指数加权平均的公式并递推可以看出,预测的数值是之前所有值的加和并平均。

指数加权平均数的一个好处是占用极少内存,因为每次只需把最新数据带入公式,不断覆盖就可以了。但它不是最精准的计算平均数的方法,计算移动窗会得到更好的估测,但是要保存所有最近的数值,必须占用更多的内存。

所以在优化算法中,会计算多个变量的平均值,从计算和内存效率来说,这是一个有效的方法。只需要一行代码。

偏差修正

上面这种滑动平均的方式,在再开始是不准确的(比如最开始让第一个值为0),此时使用 v t 1 − β t \frac{v_{t}}{1-\beta^t} 1βtvt,当t很大的时候, β t \beta^t βt接近于0,修正偏差基本没有作用,不过在开始学习阶段,偏差修正可以更好地帮助预测值。

在机器学习中,在计算指数加权平均的大部分时候,大家都不在乎执行偏差修正,因为大部分人宁愿熬过初始时期,拿到具有偏差的估测,然后继续计算下去。如果你关心初始时期的偏差,在刚开始计算指数加权平均数的时候,偏差修正能帮助你在早期获取更好的估测。

动量梯度下降法(Gradient descent with Momentum)

有一种算法叫做Momentum,或者叫做动量梯度下降法,运行速度几乎总是快于标准梯度下降算法。

基本想法就是计算梯度的指数加权平均数,并利用该梯度更新你的权重。

在之前mini-batch的优化算法中,你需要使用一个较小的学习率,防止摆动过大,使用较小的学习率,这样就导致了达到最小值需要很多计算步骤。

算法

在t次迭代的时候,计算 d W , d b dW, db dW,db
v d W = β v d W + ( 1 − β ) d W v_{dW} = \beta v_{dW} + (1-\beta)dW vdW=βvdW+(1β)dW
v d b = β v d b + ( 1 − β ) d b v_{db} = \beta v_{db} + (1-\beta)db vdb=βvdb+(1β)db
W = W − α v d W , b = b − α v d b W = W-\alpha v_{dW}, b = b - \alpha v_{db} W=WαvdW,b=bαvdb
有两个超参数,学习率 α \alpha α以及 β \beta β β \beta β控制着指数加权平均数,最常用的值是0.9,相当于平均了前10次迭代的梯度。
关于偏差修正,由于10次迭代后,你的移动平均已经过了初始阶段,所以在实际中,动量梯度下降法不会受到偏差修正的影响。

Nesterov accelerated gradient

上面的momentum梯度下降法,每一步都是由前面下降方向的一个累积和当前梯度方向组合而成。

而Nesterov是按照历史梯度往前走那么一小步,按照前面一小步位置的“超前梯度”来做梯度合并。如此一来,可以先往前走一步,在靠前一点的位置看到梯度,然后按照那个位置再来修正这一步的梯度方向,有了超前的眼光。

算法

在t次迭代的时候,
v t = β v t − 1 + α Δ θ J ( θ − β v t − 1 ) v_{t} = \beta v_{t-1} + \alpha\Delta_{\theta}J(\theta - \beta v_{t-1}) vt=βvt1+αΔθJ(θβvt1)
θ = θ − v t \theta = \theta - v_{t} θ=θvt

AdaGard

独立的适应于所有模型参数的学习率,缩放每个参数反比于其所有梯度历史平方值总和的平方根。
具有损失最大偏导的参数相应的有一个快速下降的学习率,而具有小偏导的参数在学习率上有相对较小的下降。净效果是在参数空间中更为平缓的倾斜方向会取得更大的进步。

算法

在t次迭代的时候,计算 d W , d b dW, db dW,db
S d W = S d W + d W 2 S_{dW} = S_{dW} + dW^2

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值