深度学习-优化策略

1.使用众所周知的梯度下降法。

(1).批量梯度下降法:每次参数更新使用所有的样本(2).随机梯度下降法:每次参数更新只使用一次样本(3).小批量梯度下降法:每次参数更新使用小部分数据样本

优点:算法简洁,当学习率值恰当时,可以收敛到全局最优点或局部最优点。

缺点:对于超参数比较敏感:过小导致收敛速度过慢,过大容易越过极值点;无法实时修改学习率,容易出现在鞍点上,处于局部最大值;且求导时要对整个数据集进行求导,计算量很大;且容易达到局部最优点,无法继续优化。

2.随机梯度下降法,在梯度下降上做了优化,优点是:计算量小,因为只需要对一个训练数据进行求导。缺点:无法调整学习率,容易发生震荡,收敛慢,容易出现在鞍点上,处于局部最大值。

3.动量法momentum,优点:加上了原始动量(梯度累积)且对于变量给了参数,给了一种惯性,使得其在正确的方向上,下降更快,而且容易跳出局部最小点。更具有鲁棒性,使得训练过程更加平稳。缺点:容易出现在鞍点上,处于局部最大值。

更新的时候用的不再是梯度,而是参数的动量值。

以上是对梯度做文章,

4.adagrad(自适应学习率优化器)

对于不同的参数设置不同的学习率,

使用累计平方梯度来计算新的学习率(让其作为平方根,且为分母)这样就能在梯度与学习率相乘的时候能够自适应。

优点:可以自适应的调整学习率,不同量级的参数能更好的收敛(使得梯度大的学习率变小,使得梯度乘以学习率后为一个可以接受的值,能够减少震荡)。

5.RMSProp

优点:给累计梯度增加了参数,学习率进一步优化,给累计梯度和和当前梯度增加参数,计算公式不变。

以上是对学习率做文章

6.adam

缝合怪,集中了以上所有的优点,在梯度方面增加了momentum,使用累计梯度。同时在学习率上能够自适应使用RMSProp的优点。其中的参数均为超参数,需要自己去调整。最后使用了偏差纠正,起初的时候累计梯度和累计平方梯度都是属于0,而参数会接近于一,那么当t较小时,可能会偏向于0。那么就需要做偏差矫正。

  • 7
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值