【读论文】之一种新的模型优化算法--AdaBound

最新推荐文章于 2020-03-22 11:43:08 发布

金融科技自习生

最新推荐文章于 2020-03-22 11:43:08 发布

阅读量1.1k

点赞数

分类专栏：论文摘抄

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42147780/article/details/88092725

版权

论文摘抄专栏收录该内容

3 篇文章 0 订阅

订阅专栏

论文地址：https://openreview.net/pdf?id=Bkg3g2R9FX

个人主页版：https://www.luolc.com/publications/adabound/

GitHub地址：https://github.com/Luolc/AdaBound

这篇论文提出来一个神经网络优化算法--AdaBound。而且刷新很多AI新纪录，目前已经被 2019 AI 顶会 ICLR收录。

优化算法已经很多了，那么为什么这个优化算法比较突出？

简单来说：它训练速度与Adam（自适应矩阵估计）不相上下，收敛性能又可以媲美SGD（随机梯度下降）。

SGD：历史悠久，利用梯度下降与固定的学习率，能够一步一步慢慢的向模型的最小值方向更新。缺点就是比较慢，一步一步。其次模型可能会停留在局部最优解左右来回震荡，以至于停留在局部最优点上。

Adam:其自适应优化方法方法，能够让梯度在陡峭的地方下降的更快，平缓的地方下降的步伐小一些，以最快的速度让结果收敛。速度很快，但是缺点是可能不收敛、可能找不到最优解、因此泛化性能不太好。

其实Adam速度还是很棒的，就是泛化性能不太好，那么问题出现在哪里？

如上图，作者根据之前的论文，最后推测不仅仅是极大值，极小值的学习率也有可能引起平平淡淡的泛化性能。然后后面就是作者的验证与改进。

如上图，他的思路是对学习率进行一个动态的裁剪。

因为：SGD 学习率的取值上限=下限；Adam 学习路的取值是 0 到无穷大（难怪有极端值）

因此将学习率的取值让一个关于时间t的函数动态的变化，那么就会避免出现极大值，而且随着时间的推移，

学习率上限与下限会越来越紧，自然而然模型也会越来越稳定。

实验结果：

曲线越平滑，则表明基本差不多完成收敛。而曲线的水平高低代表准确率高低，水平位置越高，准确率高，那收敛的结果意思就好。看图就知道了。

额外的惊喜：对超参数不敏感。（意味着更高的鲁棒性，以及可以减少调参的工作时间）

其次代码已经开源pytorch版本，pip安装，可以像其他优化算法一样直接调用。nice~

最后比起他的论文，我更喜欢他的个人主页签名。

A foll living in the amazing world...

====================================附加=================================================

三月初看的论文，对作者刮目相看。

三月中旬在实际场景中检验的时候，有点难堪。

金融科技自习生

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
【读论文】之一种新的模型优化算法--AdaBound

论文地址：https://openreview.net/pdf?id=Bkg3g2R9FX个人主页版：https://www.luolc.com/publications/adabound/GitHub地址：https://github.com/Luolc/AdaBound这篇论文提出来一个神经网络优化算法--AdaBound。而且刷新很多AI新纪录，目前已经被 2019 AI 顶...
复制链接

扫一扫

专栏目录

金融科技自习生 CSDN认证博客专家 CSDN认证企业博客

码龄6年

53: 原创

5万+: 周排名

17万+: 总排名

14万+: 访问

: 等级

1924: 积分

68: 粉丝

112: 获赞

35: 评论

544: 收藏

私信

关注

热门文章

分类专栏

最新评论

【精简推导】线性回归、岭回归、Lasso回归（最小二乘法）
xubin17854112852: Lasso不是从根本上解决多重共线性问题，而是限制多重共线性带来的影响。后面这句话怎么理解？
深度之眼【Pytorch】-读取自己的数据 Dataset 和 ImageFolder
-Liy: 可以用 transforms.Grayscale()
一行命令取消Mac命令行默认使用conda
陈嘿萌: 有用！设置base为默认终端的窗口，感谢。conda config --set auto_activate_base true
深度之眼【Pytorch】-读取自己的数据 Dataset 和 ImageFolder
lmw0320: 我有个疑问，对于pytorch自带的ImageFolder方法，其输入的是数据集的文件夹路径，其貌似原本就是将数据用PIL.Image进行读取的，然后传入transform处理，转成tensor。如果说我设置transform是None，那其获取到的dataset应该是tensor格式，还是PIL.Image的图片格式？我测试过，貌似是图片格式的，那要如何进行参数设置，确保其不传入transform的情况下，转成的是tensor格式呢？ ---我主要是想事先获取到训练数据集的均值和标准差，方便实际加载数据集的transforms的标准化操作。
scikit-learn机器学习--随机森林
lhvhkih: 交叉验证得到最佳的值怎么用到随机森林模型中去

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。