递归下降语法分析器_终极优化器！

最新推荐文章于 2022-07-04 22:21:55 发布

weixin_39927861

最新推荐文章于 2022-07-04 22:21:55 发布

阅读量145

点赞数

文章标签：递归下降语法分析器

本文链接：https://blog.csdn.net/weixin_39927861/article/details/111328438

版权

且慢，请暂时忍住要骂我标题党的冲动，其实完整的标题是梯度下降 - 终极优化器！再且慢，请暂时忍住对我是不是从1847年穿越过来的怀疑。最后开古：这是 Stanford和Facebook最近的一篇Paper: "Gradient Descent: The Ultimate Optimizer". 介绍了一种可以把“炼丹道士”，“调参侠”们从繁琐的调超参苦力中解放出来的方法，调参不再是大海捞针而是鱼缸钓鱼。idea非常有意思。既然神经网络算法可以自动调参数（权重），那为啥/毛不可以超参也一起调呢，甚至超-超参，超-超超参...... 答案是: Yes! You can.

Gradient Descent: The Ultimate Optimizer

https://arxiv.org/pdf/1909.13371.pdf

摘要：

任何基于梯度的机器学习算法都包含一个繁琐的任务，即调优化器的超参数，例如学习率。目前存在很多自动超参数优化技术，但是它们通常引入甚至更多的超参数来控制超参数优化过程。我们建议改为通过梯度下降来学习超参数本身，甚至更进一步通过梯度下降来学习超-超参数，可以无限循环下去。随着这些基于梯度的优化器层数的增长，它们对顶层超参数的选择变得越来越不敏感，从而减轻了用户搜索最佳值的负担。

1 简介

通常，我们会考虑使用梯度下降来优化权重和神经网络的其它参数。可微分编程语言保证了任意函数可微分，从而我们能够使用梯度下降来优化任何程序参数，否则这些参数只能被硬编码。因此，没有理由我们不能使用梯度下降来优化除神经网络权重以外的数量，例如梯度下降步长/学习率之类的超参数。不止于此，我们也可以学习用于优化那些超参数的超超参数，以及梯度下降优化器中出现的其他常数。

在本文中，我们证明了可微分程序使调整任意递归层高的优化器变得可行，其中每个优化器都会调整其后代的超参数。

图1. 超优化平面。细实线是原版 SGD 优化器选择不同超参α的结果。粗橙线是我们期望的行为，超参在训练的过程中学习一个最优的α，因此性能超越了开始于相同的α的原版优化器。

2 微分优化器

嗯，优化优化器是什么意思呢？如图1描绘了使用随机梯度下降（SGD）优化某些损失函数f的“超优化表面”。每条细线代表给定步长超参数

的SGD损失曲线。这些损失曲线沿着

轴形成与batch/loss面平行的跨截面平面。

当

时，SGD的性能较差，因为参数更新太慢而无法在训练结束前取得有意义的进展。同样，

时SGD的性能也很差，因为参数更新太大而无法收敛到最优值。因此最佳超参数是介于

和

之间。如果我们正在训练该模型，则必须通过实验手动发现此范围。

相反，想象一下，无论我们从哪里开始，都可以利用一个SGD的变种沿该表面爬下，如橙色粗线所示。不像细线的原版SGD，初始橙线不局限于一个平面－尽管在非常差的

启动，它逐渐“学习”增加

，并达到与原版SGD最佳超参数相当的最终损失。在第3部分我们将描述如何通过在SGD的每步中调整

来实现这一目标。

请注意，我们的方法不仅限于调整步长。例如，Adam优化器已经可以根据过去的进展智能地调整了每个参数的步长。然而，Adam仍然有自己的固定超参数：学习率

，两个动量系数

和因子

，以避免被0除。例如，推荐的

默认值通常为

，但TensorFlow文档说明，有时最好改用1.0或0.1。我们可以自动调整这些额外的超参数。

一些现有的研究试图在整个训练历史中学习单个最佳超参数，方法是对如图1中黑色虚线"U"进行梯度下降。这是低效的，因为它需要内存来存储整个展开的运行。我们的工作使用上述方法的一个随机变种：在学习过程中并行执行对超参数的增量更新。由于每个增量更新仅取决于其近期历史记录，我们可以“忘记”除部分固定量的运行信息以外的所有信息，而非随机方法则必须全部“记住”并全量微分。