递归下降语法分析器_终极优化器!

且慢,请暂时忍住要骂我标题党的冲动,其实完整的标题是梯度下降 - 终极优化器! 再且慢,请暂时忍住对我是不是从1847年穿越过来的怀疑。最后开古:这是 Stanford和Facebook最近的一篇Paper: "Gradient Descent: The Ultimate Optimizer". 介绍了一种可以把“炼丹道士”,“调参侠”们从繁琐的调超参苦力中解放出来的方法,调参不再是大海捞针而是鱼缸钓鱼。idea非常有意思。既然神经网络算法可以自动调参数(权重),那为啥/毛不可以超参也一起调呢,甚至超-超参,超-超超参...... 答案是: Yes! You can.

Gradient Descent: The Ultimate Optimizer

https://arxiv.org/pdf/1909.13371.pdf

摘要:

任何基于梯度的机器学习算法都包含一个繁琐的任务,即调优化器的超参数,例如学习率。目前存在很多自动超参数优化技术,但是它们通常引入甚至更多的超参数来控制超参数优化过程。我们建议改为通过梯度下降来学习超参数本身,甚至更进一步通过梯度下降来学习超-超参数,可以无限循环下去。随着这些基于梯度的优化器层数的增长,它们对顶层超参数的选择变得越来越不敏感,从而减轻了用户搜索最佳值的负担。

1 简介

通常,我们会考虑使用梯度下降来优化权重和神经网络的其它参数。可微分编程语言保证了任意函数可微分,从而我们能够使用梯度下降来优化任何程序参数,否则这些参数只能被硬编码。因此,没有理由我们不能使用梯度下降来优化除神经网络权重以外的数量,例如梯度下降步长/学习率之类的超参数。不止于此,我们也可以学习用于优化那些超参数的超超参数,以及梯度下降优化器中出现的其他常数。

在本文中,我们证明了可微分程序使调整任意递归层高的优化器变得可行,其中每个优化器都会调整其后代的超参数。

016238f7f094b63fa18b74f3e92ed450.png
图1. 超优化平面。 细实线是原版 SGD 优化器选择不同超参α的结果。粗橙线是我们期望的行为,超参在训练的过程中学习一个最优的α,因此性能超越了开始于相同的α的原版优化器。

2 微分优化器

嗯,优化优化器是什么意思呢?如图1描绘了使用随机梯度下降(SGD)优化某些损失函数f的“超优化表面”。每条细线代表给定步长超参数

的SGD损失曲线。这些损失曲线沿着
轴形成与batch/loss面平行的跨截面平面。


<
时,SGD的性能较差,因为参数更新太慢而无法在训练结束前取得有意义的进展。同样,
>
时SGD的性能也很差,因为参数更新太大而无法收敛到最优值。因此最佳超参数是介于
之间。如果我们正在训练该模型,则必须通过实验手动发现此范围。


相反,想象一下,无论我们从哪里开始,都可以利用一个SGD的变种沿该表面爬下,如橙色粗线所示。不像细线的原版SGD,初始橙线不局限于一个平面 - 尽管在非常差的

=
启动,它逐渐“学习”增加
,并达到与原版SGD最佳超参数相当的最终损失。在第3部分我们将描述如何通过在SGD的每步中调整
来实现这一目标。


请注意,我们的方法不仅限于调整步长。例如,Adam优化器已经可以根据过去的进展智能地调整了每个参数的步长。然而,Adam仍然有自己的固定超参数:学习率

,两个动量系数
,
和因子
,以避免被0除。例如,推荐的
默认值通常为
,但TensorFlow文档说明,有时最好改用1.0或0.1。我们可以自动调整这些额外的超参数。


一些现有的研究试图在整个训练历史中学习单个最佳超参数,方法是对如图1中黑色虚线"U"进行梯度下降。这是低效的,因为它需要内存来存储整个展开的运行。我们的工作使用上述方法的一个随机变种:在学习过程中并行执行对超参数的增量更新。由于每个增量更新仅取决于其近期历史记录,我们可以“忘记”除部分固定量的运行信息以外的所有信息,而非随机方法则必须全部“记住”并全量微分。

3 实现

待续......

递归下降分析法 一、实验目的: 根据某一文法编制调试递归下降分析程序,以便对任意输入的符号串进行分析。本次实验的目的主要是加深对递归下降分析法的理解。 二、实验说明 1、递归下降分析法的功能 词法分析器的功能是利用函数之间的递归调用模拟语法树自上而下的构造过程。 2、递归下降分析法的前提 改造文法:消除二义性、消除左递归、提取左因子,判断是否为LL(1)文法, 3、递归下降分析法实验设计思想及算法 为G的每个非终结符号U构造一个递归过程,不妨命名为U。 U的产生式的右边指出这个过程的代码结构: (1)若是终结符号,则和向前看符号对照, 若匹配则向前进一个符号;否则出错。 (2)若是非终结符号,则调用与此非终结符对应的过程。当A的右部有多个产生式时,可用选择结构实现。 三、实验要求 (一)准备: 1.阅读课本有关章节, 2.考虑好设计方案; 3.设计出模块结构、测试数据,初步编制好程序。 (二)上课上机: 将源代码拷贝到机上调试,发现错误,再修改完善。第二次上机调试通过。 (三)程序要求: 程序输入/输出示例: 对下列文法,用递归下降分析法对任意输入的符号串进行分析: (1)E->eBaA (2)A->a|bAcB (3)B->dEd|aC (4)C->e|dc 输出的格式如下: (1)递归下降分析程序,编制人:姓名,学号,班级 (2)输入一以#结束的符号串:在此位置输入符号串例如:eadeaa# (3)输出结果:eadeaa#为合法符号串 注意: 1.如果遇到错误的表达式,应输出错误提示信息(该信息越详细越好); 2.对学有余力的同学,可以详细的输出推导的过程,即详细列出每一步使用的产生式。 (四)程序思路 0.定义部分:定义常量、变量、数据结构。 1.初始化:从文件将输入符号串输入到字符缓冲区中。 2.利用递归下降分析法分析,对每个非终结符编写函数,在主函数中调用文法开始符号的函数。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值