优化器：从SGD到 Adam

最新推荐文章于 2024-03-13 05:20:35 发布

*小呆

最新推荐文章于 2024-03-13 05:20:35 发布

阅读量1.4k

点赞数 2

分类专栏： deep learning

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_39575835/article/details/113181900

版权

deep learning 专栏收录该内容

56 篇文章 6 订阅

订阅专栏

总结学习视频 https://www.bilibili.com/video/av94067702/

所有的优化器都是可以套进这个基本框架的。
在这里插入图片描述

SGD

这里的E指的是单位矩阵。SGD 没有动量概念，因为一阶动量就是当前梯度，二阶梯度就是单位矩阵。
在这里插入图片描述
缺点：容易陷入局部最优。由于SGD只考虑当前时刻的梯度，在局部最优点的当前梯度为0。由计算公式可知，此时参数不再进行更新，故陷入局部最优的状态。

显而易见，引入历史梯度值，引入动量（momentum）的概念可以帮助我们跳出鞍点。

EMA，指数滑动平均

咱比如要算 $\theta_t$ 的平均，一般大家就用相加求和/总数的方法。
而EMA（指数滑动平均）是指数式的平均。

第一行最重要，方便理解。
当前时刻 $v_t$ 等于衰减因子 $\beta$ 与上一个时刻的值 $v_{t-1}$ 的乘积加上 $(1-\beta) \times \theta_t$ 。这个式子可以递归化简为第二行，也就是把 $\theta_t$ 的历史做一个指数的求和，所以很形象的称为滑动平均。
在这里插入图片描述
而对于那些权重小于 $\frac{1}{e}$ 的项，我们可以忽略不记。然后可以数学推导（极限），指数滑动平均肯定有个范围啊，就是到底与多宽的历史时刻有关，答案是 $\frac{1}{1-\beta}$ ，所以一般 $\beta=0.999$ 的时候，就是1000个时刻取指数平均。

此时，我们知道了EMA，就可以把 $\theta_t$ 换成 $g_t$ ，目的是引入梯度的历史值，进而可以计算出梯度的动量（momentum）。

EMA的一个小问题

当t比较小的时候，EMA会把平均值拉的很小。
在这里插入图片描述
所以这里大家一般都会引入一个修正因子 $1-\beta^t$ ，我们可以分析，

SGD w/ Momentum

在SGD上，加入一阶动量，还是没有引入二阶动量。
在这里插入图片描述
这里没有严格使用EMA，具体为，没有使用 $1-\beta^t$ ，而是使用了 $\eta$ ，无伤大雅，原理上一致。

NAG (Nesterov Accelerated Gradient)

同样使用了一阶动量而没有使用二阶动量。没有使用 $(1-\beta) \times g_t$ ，而是预测t-1时刻下一时刻梯度，没有引入当前的观测值，可以理解为跟着惯性走了一步。
在这里插入图片描述

加下来的都是引入二阶后的方法。二阶动量出现，才说明了自适应学习率的优化算法时代到来。

AdaGrad

如图，我们希望经常被刺激到的神经元参数更新幅度小一些，那些不经常被用到的神经元更新的慢一点。
在这里插入图片描述

有一种归一化的感觉。对于那些更新幅度很大的参数，通常历史累计梯度的平方和会很大（可以理解为能量很大），所以希望能量大的更新慢一点，能量小的更新快一点。

在这里插入图片描述
所以，如图式一，计算以往梯度的平方和作为二阶动量，梯度本身作为一阶动量，就可以得到第二行的式子。此时，二阶动量大的参数就会更新的小一点啦。

缺点：随着时间步的拉长，历史累计梯度平方和会越来越大，这样会使得所有维度参数的学习率都不断减小（单调递减），无论更新幅度如何。

显然，一直累计肯定不好，这里可以想到momentum，利用EMA不就好了吗？

RMSProp/AdaDelta

Delta 就是一个小范围嘛，就是使用了历史一部分梯度。

RMSProp 就是在AdaGrad 基础上将普通的历史累计梯度平方和换成了历史累计梯度平方和的EMA
AdaDelta
在 RMSProp上进行，改的分子（忽略）

Adam

Momentum 在SGD 基础上增加了一阶动量，AdaGrad 在SGD 基础上增加了二阶动量，把一阶和二阶动量都使用了就是Adam。

在这里插入图片描述

关注

2
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

*小呆 CSDN认证博客专家 CSDN认证企业博客

码龄7年

167: 原创

17万+: 周排名

40万+: 总排名

52万+: 访问

: 等级

5577: 积分

104: 粉丝

333: 获赞

127: 评论

1130: 收藏

私信

关注

分类专栏

实用技巧 20篇
docker 5篇
Statistical Learning 7篇
找工作 3篇
weakly supervise segmentation 4篇
python_tensorflow 3篇
python_numpy 6篇
python3 34篇
cuda 8篇
vs 3篇
ffmpeg 12篇
deep learning 56篇
c++ 16篇
torch 24篇
segmentation 4篇

最新评论

sliding windows infer 模型
千禧皓月: stride[0]和stride[1]不应该加
sliding windows infer 模型
千禧皓月: 双循环边界条件有问题，会溢出
win10 cuda_小白之旅（2）：第一个应用程序
weixin_44811466: 我也遇到这样的问题，但是我的断网后才可以正常运行，请问你现在解决了吗？
[win 10] maskrcnn-benchmark 上手（1）——配置环境与coco数据集介绍
qq_43334087: 你好博主，还是不太理解iscrow=1有啥用，是用于表示语义分割把一类事物全部划成一个整体吗？还是说只是粘在一起的物体划成整体，分散开来的依然是一个个分开？

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。