Andrychowicz, Marcin, et al. “Learning to learn by gradient descent by gradient descent.” Advances in neural information processing systems. 2016.
文章目录
1 简介
这篇文章主要讲用一个额外的LSTM学习出优化算法中以前需要手工设置的超参数。相比于MAML元学习的是模型的初始参数表示,这篇文章则着眼于元学习出一个优化算法。 现在很多方法是针对特定任务来设计优化算法,比如:RMSprop, Adagrad, ADAM等等。但是根据世上没有免费的午餐定律,没有一个特定的优化算法适用于所有的情形。而这篇文章则设计了一个optimizer g g g (本文中使用LSTM)来学习出不同的优化方法。因此参数的更新方法如下:
θ t + 1 = θ t + g t ( ∇ f ( θ t ) , ϕ ) \theta_{t+1}=\theta_t + g_t(\nabla f(\theta_t),\phi) θt+1=θt+gt(∇f(θt),ϕ)
其中, ϕ \phi ϕ是模型 g g g自身的参数, ∇ f ( θ t ) \nabla f(\theta_t) ∇f(θt)是optimizee f f