李宏毅深度学习笔记04(Optimization for deep learning)

本文详细介绍了深度学习中的优化算法,包括SGD、SGD with Momentum、Adagrad、RMSprop、Adam以及SWATS。特别讨论了Adam结合SGDM的优点,以及Warm Up学习率预热策略在模型训练初期的重要性,以提高模型的稳定性和收敛速度。
摘要由CSDN通过智能技术生成

SGD

![在这里插入图片描述](https://img-blog.csdnimg.cn/20210716204304252.png?x-oss-process=image/w在这里插入图片描述

SGDM(SGD with Momentum)

Momentum项相当于速度,因为β稍小于1,表现出一些摩擦力,所以球不会无限加速下去,解决了局部最小点的问题,可以使球向最低点继续运动.
在这里插入图片描述

Adagrad

Adagrad给SGD加上一个分母,将每一个参数的每一次迭代的梯度取平方累加后在开方,用全局学习率除以这个数,作为学习率的动态更新。
对待不同的问题,用不同的数据进行分析.对于训练深度神经网络模型而言,从训练开始时积累梯度平方会导致有效学习率过早和过量的减小,所以该方法认为不是特别好,但目前看效果还行.
在这里插入图片描述

RMSprop(Root Mean Sqaure prop)

与使用动量的梯度下降一样,RMSprop的目的也是为了消除垂直方向的抖动,

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值