深度学习最优化(四)—— 动量法/Nesterov/Adagrad/Adadelta/RMSprop/Adam/Nadam

本文详细介绍了深度学习优化中的几种算法,包括SGD、动量法、Nesterov、Adagrad、RMSprop、Adadelta、Adam以及Nadam。这些算法针对梯度下降中的问题提出解决方案,如学习率选择、局部最优等,其中Adam和Nadam结合了一阶和二阶动量,表现出良好的优化效果。
摘要由CSDN通过智能技术生成

1. SGD

现在的SGD一般都指小批量梯度下降,即每一次迭代计算mini-batch的梯度,然后对参数进行更新。

               g_{t}= \triangledown _{\theta_{t-1}}J(\theta_{t-1})

              \triangle \theta _t = -\eta \ast g_t

              \theta _t = \theta _{t-1}+\triangle \theta _t

其中\theta _t是模型参数,J(\theta _{t-1})是模型目标函数,g_t是目标函数的梯度,\eta是学习率。

难点(缺点):

          (1)学习率的选择。过低收敛缓慢,过高无法收敛。

          (2)“之字形”的出现,即在陡谷(一种在一个方向的弯曲程度远大于其他方向的表面弯曲情况)处震荡。如下图所示

2. 动量法(Momentum)

               m_t=\mu \ast m_{t-1}-\eta g_t

               

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值