这篇文章的题目如下:
论述了如何将元学习用于非静态环境下多agents的增强学习。与传统的多agents静态环境(atari)和单agent静态环境相比,该场景更复杂,同时也与实际应用情景相吻合!该问题的提出在review中被认为是通向AGI的重要的一步。设想这样的一个游戏场景:愤怒的小鸟—游戏中的重力随着时间动态的改变,从而该场景是一个典型的非静态环境,是之前的增强学习方法所不能handle的。
下面将从multi-task MAML入手,引入文章所用技术的基本components;随后,从伪代码简要分析文章所提方法—continuous adaptation via meta-learning。
multi-task MAML
在给出MAML在多任务下的图模型之前,给出文章的截图,并做一些注释和分析。
对于一些定义的表述,需要做以下两点的注意:
1.文章关于任务做了如(1)式的定义,一个任务由一个元组组成,元组包括任务的损失函数、任务的马尔科夫链(用来表征环境变化的)、观测和动作以及horizon H。在SL中,马尔科夫链的转移概率设为1,H设为1。
2.关