1 引言
人类和其他动物使用情景记忆来快速适应复杂的环境(Kumaran et al., 2016;Lake等人,2017;麦克莱伦等人,1995)。动物行为的一个显著特征是能够在同一环境中实现几个不同的目标。在强化学习领域,自适应行为得到了积极的研究(Rusu et al., 2015;Chaplot等人,2017;Teh et al., 2017;Oh等人,2016;Parisotto & Salakhutdinov, 2017;桑托罗等人,2018;(施瓦茨等,2018)。然而,大多数研究都是孤立地考虑它们,要么关注情景记忆(Blundell et al., 2016;Pritzel等人,2017;(Santoro et al., 2018)或学习实现不同目标的策略(Frans et al., 2017;Dosovitskiy & Koltun, 2016;Tessler等人,2017;(施瓦茨等,2018)。然而,情景记忆的内容不仅对单个任务有用,而且对完成多个连续任务也有用,此外还可以帮助人们获得新的技能。例如,你可以想象一个机器人家庭助手被指示去取回一个特定的物体。如果机器人在过去的房屋清洁中遇到过这个物体并回忆起它,那么这个记忆可以极大地帮助定位所请求的物体。
在这项工作中,我们提出了一种能够存储环境情景表示的深度神经架构,以改进多任务问题的解决方案,并促进对新技能的持续学习。
2 相关工作
多任务学习最流行的一种方法是同时对Agent进行所有任务的训练。这种方法称为批量多任务学习(Chen & Liu, 2016)。在深度强化学习领域,它通常与权值共享技术相结合。在这种情况下,子任务网络共享它们的部分层,而当