李宏毅机器学习笔记3-Optimization for Deep Learning

Background Knowledge

  • μ − s t r o n g   c o n v e x i t y \mu-strong \ convexity μstrong convexity
  • L i p s c h i t z   c o n t i n u i t y Lipschitz \ continuity Lipschitz continuity
  • B e r g m a n   p r o x i m a l   i n e q u a l i t y Bergman\ proximal\ inequality Bergman proximal inequality
    不会给出很详细的数学证明

New Optimizers for Deep Learning

在这里插入图片描述
找一个神经网络的参数 接近y^hat
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
忽略掉储存等方面的内容,一次可以拿到所有的训练资料

SGD

在这里插入图片描述

SGDM

在这里插入图片描述
乘一个过去的momentum,过去的累加起来。有个过去累加的项,可以确保一直在移动,多看一点东西
在这里插入图片描述

Adagrad

在这里插入图片描述
有了下面分母,即过去gradient所有的和,防止暴走或太小步

RMSProp

在这里插入图片描述

Adam

在这里插入图片描述
在这里插入图片描述

Optimizers:Real Application

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
Adam比较快,SGDM比较稳
一开始用Adam 后面用SGDM
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
上图最后会越走越小

在这里插入图片描述
在这里插入图片描述

上图:给出了一个经验算式。比较粗鲁,没有让机器去自适应,不是最好的
在这里插入图片描述
在这里插入图片描述
上图:一下learning rate大,一会儿小。大的时候鼓励不要满足于现状,当收敛的很好时,也不会产生太大的影响

在这里插入图片描述
上图:直接重来,大了在变小

在这里插入图片描述
先变大 在变小 最后越来越小

Does Adam need warm-up?

让步伐稳一点,不然一会儿大一会儿小,收敛性不好
在这里插入图片描述
上图中 纵轴 iteration 横轴 intribution
从左往右是放大来看的,开始的和后面的不太稳,一开始不知道initial在什么地方,而且分母不会估计的很准,gradient 分布就乱一点。后面分母估计多了再准,不会一下子跳太多。

一种warm-up的方法

下图为原来的 步伐有点大,右侧中振荡的有点大
在这里插入图片描述
distorted a.歪曲的
应该再还不确定估计好不好时,走小步一点,情况不一定编号,但gradient不会差太多,比较稳定,不会暴走

方法:
在这里插入图片描述

RAdam vs SWATS

在这里插入图片描述
Adam快 SGDM稳

One-step back

wrapper 在optimizer外再包层东西
每走几步,检查一下现在走得ok不
在这里插入图片描述
在这里插入图片描述
为什么做这个:可能进到一个很深的峡谷里面,走不出来
我们希望走到一个平坦的minimum,这个考研尽量保持在一个比较平坦的区域

More than momentum

在这里插入图片描述

NAG

so can we look into the future?
超前部署
在这里插入图片描述
在这里插入图片描述

Nadam

在这里插入图片描述

Do you really know your optimizer?

A story of L2 regularization
在这里插入图片描述
在这里插入图片描述

Something helps optimization

在这里插入图片描述
上图:增加随机性
在这里插入图片描述

Advices

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值