TensorFlow中的优化算法

  1. 随机梯度下降——SGD(Stochastic Gradient Descen)
    每次从训练样本中随机抽取一个样本计算loss和梯度并对参数进行更新,由于每次不需要遍历所有的数据,所以迭代速度快,但是这种算法比较弱,往往容易走偏。
    与随机梯度下降相对应的还有批量梯度下降BGD,每次用整个训练集计算梯度,比较稳定,就是速度非常慢
    小批量梯度下降(Mini-Batch Gradient Descent),每次抽取m个样本

2.Momentum 动量
动量的方法在随机梯度下降的基础上,加上了上一步的梯度

3.加速梯度算法 NAG
nesterov加速梯度与动量类似,也是考虑最近的梯度情况,但是NAG相对超前一点,它先使用动量m计算参数u的下一个位置的近似值,然后在近似位置上计算梯度

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值