【实战】2019最牛的梯度优化算法出炉，AdaBound实验对比代码

最新推荐文章于 2024-08-08 22:21:48 发布

我叫鱼大

最新推荐文章于 2024-08-08 22:21:48 发布

阅读量4k

点赞数 1

分类专栏：深度学习文章标签：梯度 adabound

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_36441393/article/details/88227470

版权

深度学习专栏收录该内容

17 篇文章 0 订阅

订阅专栏

论文：Adaptive Gradient Methods with Dynamic Bound of Learning Rate

论文地址：https://openreview.net/pdf?id=Bkg3g2R9FX

github地址：https://github.com/Luolc/AdaBound

AdaBound可以被视为一个优化器，随着训练步数的变大，它会从Adam动态转换为SGD。通过这种方式，它可以结合自适应方法的好处，即快速的初始过程，以及SGD的良好最终泛化属性。

以下部分是作者使用Pytorch深度学习框架，使用CIFAR-10数据，在ResNet和DensetNet两个神经网络训练，使用各优化算法，以下为对比实验的代码截图：

ResNet(深度残差网络)模型

结论:我们看到自适应方法（AdaGrad,Adam 和AMSGrad）刚开始比非自适应学习率（SGD）有着良好的表现。但是在150epoch之后学习率消失递减，SGD开始表现良好相比自适应方法更出色。从整个表现看我们的自适应方法AdaBound和AMSBound 能够在刚开始(和AdaGrad,Adam 和AMSGrad）快速得到一个较好的表现，也能在后面的epoch比SGD更出色稳定。

DensetNet(稠密卷积神经网络)

在DenseNet-121上验证与期望一样，同样AdaBound有着不俗的表现。

实验设置：

下载|730页凸优化英文原版

下载|382页 PYTHON自然语言处理

下载|498页 Python基础教程第3版

下载|1001页 Python数据分析与数据化运营

关注

1
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。