几种梯度下降优化器和技巧介绍

最新推荐文章于 2023-07-02 16:08:53 发布

NOWAY_EXPLORER

最新推荐文章于 2023-07-02 16:08:53 发布

阅读量798

点赞数 1

分类专栏：人工智能机器学习文章标签：深度学习神经网络机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_33499229/article/details/106391510

版权

人工智能同时被 2 个专栏收录

7 篇文章 0 订阅

订阅专栏

2 篇文章 0 订阅

订阅专栏

本文章大部分算法来自于这篇论文

An overview of gradient descent optimization algorithms

优化器：

1.动量（mommentum）

采用部分上一时刻的动量来更新这一步的梯度，具有加速收敛，减缓震荡的作用

2.NAG(Nesterov Accelerated Gradient)

加入了预测的概念，预测的依据是假设和上一次和这一次的动量一样，可以有效防止增高

3.Adagrad(Adaptive Dradient)

因为神经网络中有很多参数，有的参数跟新频率低有的高，更新频率低的我们让他步长大一点反之小一点，利用梯度累加和来衡量跟新的频率

字有点丑，见谅。。

4.RMSprop

是对Adagrad的一种改进，解决累加和过大的问题。加入了窗口的方法

5.Adam(Adaptive mommentum estimate)

融合了RMSprop和mommentum,目前深度学习比较常用的优化器。其实动量上是有一些变化的，去除了之前的加速收敛的效果就相当于一个低通滤波器

6.NAdam(NAG Adam)

在Adam之上加入了NAG(预测)，改掉了之前的动量跟新

7.Adabound(Adaptive bound)

中国学霸提出来的算法，将SGD和Adam融合到了一起。性能在LTSM上达到了SGD速度媲美Adam。加入学习率上下限概念，上下限分别从无穷大和0到某一值就是Adam到SGD的过渡。详见https://openreview.net/pdf?id=Bkg3g2R9FX

后续会继续更新其他优化器。。

技巧：

1.Shuffling and Curriculum Learning

就是一般训练时要保证训练样本的混乱，但是当我们的训练结果在某一方面表现差的时候应该从样本上加强对这一方面的训练

2.Batch normalizatio

训练过程中对模型的一部分做归一化处理，有利于防止过拟合

3.提前结束

在我们损失一段时间没有什么变化的时候就提前结束训练，辛顿如是说

4.加入噪声

在梯度跟新中加入噪声有利于提高鲁棒性（如果初始参数垃圾的化），有利于帮助跨过局部极小值点

不定期更新中。。。。

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
几种梯度下降优化器和技巧介绍

本文章大部分算法来自于这篇论文An overview of gradient descent optimization algorithms优化器：1.动量（mommentum）采用部分上一时刻的动量来更新这一步的梯度，具有加速收敛，减缓震荡的作用2.NAG(Nesterov Accelerated Gradient)加入了预测的概念，预测的依据是假设和上一次和这一次的动量一样，可以有效防止增高3.Adagrad(Adaptive Dradient)因为神经网络中有很
复制链接

扫一扫

专栏目录

NOWAY_EXPLORER CSDN认证博客专家 CSDN认证企业博客

码龄9年

40: 原创

7万+: 周排名

21万+: 总排名

8万+: 访问

: 等级

973: 积分

78: 粉丝

98: 获赞

31: 评论

507: 收藏

私信

关注

热门文章

分类专栏

部署 4篇
职业生涯
目标检测 5篇
工具 2篇
人工智能 7篇
cv 7篇
数学 1篇
深度学习 9篇
图像识别 2篇
图像处理 3篇
编码规范 3篇
嵌入式 8篇
算法 7篇
Flutter 7篇
开发工具 2篇
cmake 1篇
控制算法
机器学习 2篇
通信协议 4篇
stm32 2篇

最新评论

Albumentation使用指南
2301_81539054: 你好，有没有关键点教学阿
SNPE教程一：基本概念
NOWAY_EXPLORER: 可能是模型大了或者图片大了
SNPE教程一：基本概念
weixin_45010025: 作者你好，想请教一下使用snpe-net-run运行dlc的时候因为内存原因被kill了，这种情况下有什么解决方案吗
CanFestival源码剖析
m0_51277250: 预操作状态下源码中是除了PDO和启动都打开呀，进入操作状态再打开了PDO
EQLV2论文解读
躬行max: 博主，想问您一下，这个梯度比例做累积是一个批次内的样本做累积吧，不然一个epoch的是不是太大了

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。