DL_Optimization_Day3

Optimization

what is optimization

content

找到一个合适的参数的θ,使得L(θ)损失函数值最小

some notations

一些参数的含义如下所示
在这里插入图片描述

SGD

SGDM

SGD是梯度下降的算法,而SGDM中M代表momentum动量的意思。简而言之是在梯度下降的时候加上了一个向前冲的趋势,有利于摆脱梯度突然下降到局部最小值的点。(他不仅包含了上一步的梯度,还包括之前的趋势。)
在这里插入图片描述

RMSProp

在这里插入图片描述

Adam

Adam包含了前两者的特点
在这里插入图片描述

How to improve

在这里插入图片描述

Adam

速度快,但是不稳定。

SGDM

稳定,结果好,但是训练速度比较慢。

Lookahead

梯度下降的时候,走几步会退回来检查是否方向正确。避免突然掉入局部最低点。
在这里插入图片描述

AdamW SGDWM

这个是针对adam和sgdm各自的问题,有一定应用的改进
在这里插入图片描述

Something helps optimization

Normalization
Regularization
Warm up
Curriculum learning
Fine-tuning

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值