背景:这篇文章用于解决在procedurally-generated环境中(a different environment is generated in each episode),当奖励稀疏时,如何鼓励agent进行探索的问题。
方法:
对每个episode打分,打分方式以local,global,extrinsic三方面的加权获得。并按score rank 截断存储在一个buffer中,接下来的episode中对buffer中的个体进行imitation learning。
问题:当episode的环境改变时,模仿学习的意义在哪?其本质是不是只是增加了随机探索的概率,因为环境变化相同的动作没有任何学习意义,等价于一个随机动作而已。求解答。