李宏毅机器学习笔记3-Optimization for Deep Learning

最新推荐文章于 2022-05-02 18:56:23 发布

无CCFA就不改名

最新推荐文章于 2022-05-02 18:56:23 发布

阅读量457

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/singxsy/article/details/109117625

版权

Optimization for Deep Learning

Background Knowledge

$\mu-strong \ convexity$
$\ continuity$
$Bergman\ proximal\ inequality$
不会给出很详细的数学证明

New Optimizers for Deep Learning

在这里插入图片描述
找一个神经网络的参数接近y^hat

忽略掉储存等方面的内容，一次可以拿到所有的训练资料

SGD

在这里插入图片描述

SGDM

在这里插入图片描述
乘一个过去的momentum，过去的累加起来。有个过去累加的项，可以确保一直在移动，多看一点东西

Adagrad

在这里插入图片描述
有了下面分母，即过去gradient所有的和，防止暴走或太小步

RMSProp

在这里插入图片描述

Adam

在这里插入图片描述

Optimizers:Real Application

在这里插入图片描述

Adam比较快，SGDM比较稳
一开始用Adam 后面用SGDM

上图最后会越走越小

在这里插入图片描述

上图：给出了一个经验算式。比较粗鲁，没有让机器去自适应，不是最好的
在这里插入图片描述

上图：一下learning rate大，一会儿小。大的时候鼓励不要满足于现状，当收敛的很好时，也不会产生太大的影响

在这里插入图片描述
上图：直接重来，大了在变小

在这里插入图片描述
先变大在变小最后越来越小

Does Adam need warm-up？

让步伐稳一点，不然一会儿大一会儿小，收敛性不好
在这里插入图片描述
上图中纵轴 iteration 横轴 intribution
从左往右是放大来看的，开始的和后面的不太稳，一开始不知道initial在什么地方，而且分母不会估计的很准，gradient 分布就乱一点。后面分母估计多了再准，不会一下子跳太多。

一种warm-up的方法

下图为原来的步伐有点大，右侧中振荡的有点大
在这里插入图片描述
distorted a.歪曲的
应该再还不确定估计好不好时，走小步一点，情况不一定编号，但gradient不会差太多，比较稳定，不会暴走

方法：
在这里插入图片描述

RAdam vs SWATS

在这里插入图片描述
Adam快 SGDM稳

One-step back

wrapper 在optimizer外再包层东西
每走几步，检查一下现在走得ok不
在这里插入图片描述

为什么做这个：可能进到一个很深的峡谷里面，走不出来
我们希望走到一个平坦的minimum，这个考研尽量保持在一个比较平坦的区域

More than momentum

在这里插入图片描述

NAG

so can we look into the future？
超前部署
在这里插入图片描述

Nadam

在这里插入图片描述

Do you really know your optimizer?

A story of L2 regularization
在这里插入图片描述

Something helps optimization

在这里插入图片描述
上图：增加随机性

Advices

在这里插入图片描述

无CCFA就不改名

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。