Meta-RL之Reptile算法

最新推荐文章于 2024-07-07 00:25:23 发布

Ton10

最新推荐文章于 2024-07-07 00:25:23 发布

阅读量6.6k

点赞数 9

分类专栏： Meta-RL 文章标签：强化学习元学习深度学习算法优化

本文链接：https://blog.csdn.net/MR_kdcon/article/details/120472954

版权

Meta-RL 专栏收录该内容

10 篇文章

订阅专栏

Reptile算法和MAML一样，是Meta-Learning在学习一种初始化参数上的算法。MAML有二阶和简化版本——一阶FOMAML(First-order MAML)2种形式，而Reptile类似于FOMAML，是一种新型的一阶Gradient-Based 元学习算法。从实现上来看，Reptile比FOMAML还要简单，并且实验结果和FOMAML、MAML相差无几。
Reptile是一篇2018年的论文，作者是Nichol，发布时间在MAML之后。

参考列表：
①Reptile原论文(On First-Order Meta-Learning Algorithms)
②从MAML到Reptile
③Reptile深度解析
④LiI’log-Meta Learning综述

MAML

标准的MAML算法是一种二阶算法，也就是说算法中需要计算二阶偏导数，因此比较耗时耗资源。谈到MAML，第一个想到的就是著名的二次更新，即内更新( $\theta'\gets\theta$ )和外更新( $\theta\gets\theta'$ )。内更新用于Meta-Learner到Learner的Fast-Adaptation；外更新用于训练Meta-Learner。
在这里插入图片描述
如上图所示，灰色线代表着不同tasks所产生的梯度值(方向)；黑色线代表着最终算法选择更新的方向，可以看出来黑色方向应该是几个tasks产生方向的平均值；虚线代表着Fast-Adaptation，即 $\theta\to\theta'$ ，不同的方向代表着不同的task应该更新的方向。
在这里插入图片描述这张图我们对照着内外更新的公式来看：
①内更新： $\theta_i'=\theta-\alpha\nabla_\theta\mathcal{L}_{\tau_i}(f_\theta)$
②外更新： $\theta=\theta-\beta\nabla_\theta\sum_{\tau_i\sim p(\tau)}\mathcal{L}_{\tau_i}(f_{\theta_i'})$
第一次更新(绿色方向)得到 $\theta'$ ，第二次更新虽然是对 $\theta$ 求导，但是经过简化之后可以转为对 $\theta'$ 的求导，因此就好像说外更新就像继续对 $\theta'$ 做更新一样( $\theta'_{new}\gets\theta'_{old}-\beta\nabla_{\theta'}\mathcal{L}$ )，于是就有了长一点的黄色线。由于梯度本身就是个向量，因此进行平移就可以达到外更新的效果，再加上学习率 $\beta$ ，因此 $\theta$ 的更新如短一点的黄色线所示。

由于这篇笔记主要讲Reptile，因此关于更多MAML的细节请参考我的另一篇关于MAML的笔记，点这里。

FOMAML

FOMAML，即First-Order MAML，标准的MAML算法需要涉及到二阶导数，既浪费时间又消耗计算资源，因此一阶的MAML就有必要引出。
FOMAML伪代码如下：
在这里插入图片描述
一句话概括就是在外更新中，只使用Fast-Weights $\theta'$ 最后一次的梯度更新结果，详细推导如下图：

在代码实现是这样做的：

其中losses_q[-1]指的是最后一个task里最后一次更新的 $L o s s$ 值，通过它的backward来更新Meta-Learner的参数，即Slow-Weights。

Reptile

和MAML一样，Reptile也是旨在学习到一种合适的初始化策略。
在这里插入图片描述
上图和MAML那张很像，只不过Reptile更简单，可以看出，就是用Meta-Learner的参数 $\phi$ 连续做几次更新到达Learner的参数 $\theta^m$ ，然后 $\phi$ 的更新方向就是沿着 $\phi\to\theta^m$ 的方向前进，当然还要乘以学习率。可以看出和MAML的区别在于， $\theta$ 参数的获得可以更新好几次，而MAML里是只有1次，这也是MAML的一个特点(需要注意的是，MAML也是可以更新好几次的，并不是只能1次)。

Reptile的伪代码如下：
在这里插入图片描述
Note：

对于Meta-Learner参数的更新，Reptile并没有去求梯度，而是通过一种软更新的方式，这里 $\epsilon$ 是学习率。
Reptile并没有像MAML一样去搞Support-set和Query-set。
关于 $U$ 的解释：这里指的就是Reptile更新图中深绿色部分，意思就是通过Adam或SGD这种优化算法，其实就相当于MAML里的内更新， $\tilde{\phi}$ 就相当于Fast-Weights，从 $\phi$ 开始连续做几次梯度下降，给定一堆tasks，进行采样，更新 $k$ 次： $\tilde{\phi}=\phi-g_1-g_2\cdots-g_k$ ，如下图所示：
软更新使得 $\phi$ 朝着 $\tilde{\phi}-\phi$ 的方向前进，这就是Reptile，简单粗暴！至于为什么选择这个更新方向，作者进行了一系列复杂的数学推导才得出。