本篇论文属于元学习和黑箱函数优化的交叉领域,其中将元学习的思想应用于黑箱函数优化。这篇论文发表于2017年。
对于黑箱函数优化方法我了解的不太多,因此本文的不可避免的会有一些理解不到位的地方。
想要了解贝叶斯优化和高斯过程的,可以看我翻译的两篇文章:
1 Introduction
发展心理学表明婴儿具有多个针对核心知识的分散的系统,通过这些系统,他们可以更快地学习新知识和技能。目前最有说服力的观点认为,是进化过程导致了快速学习能力的出现。
因此,很多学者致力于打造能够快速学习的模型。在本文的工作中,元学习的目标是为全局黑箱优化(global black-box optimization)打造一个算法。特别地,这个算法设法解决为一个未知的损失函数 f f f寻找全局最小值的问题。
x ∗ = a r g m i n x ∈ X f ( x ) x* = argmin_{x \in X}f(x) x∗=argminx∈Xf(x)
对学习器来说,这个黑箱函数 f f f在测试阶段是不可知的,但是可以使用一个query点 x x x来进行评估,从而输出一个确定的或随机的值 y ∈ R y \in R y∈R, 使得 f ( x ) = E [ y ∣ f ( x ) ] f(x)=E[y|f(x)] f(x)=E[y∣f(x)]。换句话说,我们只能通过无偏的有噪点观测 y y y(逐点观测)来观测函数 f f f。
贝叶斯优化通常被用于解决黑箱函数的全局优化问题,本文将用Meta-Learning的方法来解决这个问题,并用来与贝叶斯优化进行对比。
2 Learning Black-box Optimization
黑箱优化算法的一般步骤可以总结如下:
- 给定一个当前状态 h t h_t ht,提出一个query点 x t x_t xt;
- 观察到输出 y t y_t yt;
- 更新任何可更新的参数,从而得到新状态 h t + 1 h_{t+1} ht+1。
在这工作中将使用RNN来定义一个更新参数的方法:
h t , x t = R N N θ ( h t − 1 , x t − 1 , y t