Continual and Multi-task Reinforcement Learning With Shared Episodic Memory

本文探讨了如何使用深度神经网络和共享情景记忆来改进多任务强化学习的解决方案,促进对新技能的持续学习。研究指出,通过权值共享和元学习方法,智能体可以在不同任务之间迁移和适应,利用情景记忆提高性能。
摘要由CSDN通过智能技术生成

1 引言    

       人类和其他动物使用情景记忆来快速适应复杂的环境(Kumaran et al., 2016;Lake等人,2017;麦克莱伦等人,1995)。动物行为的一个显著特征是能够在同一环境中实现几个不同的目标。在强化学习领域,自适应行为得到了积极的研究(Rusu et al., 2015;Chaplot等人,2017;Teh et al., 2017;Oh等人,2016;Parisotto & Salakhutdinov, 2017;桑托罗等人,2018;(施瓦茨等,2018)。然而,大多数研究都是孤立地考虑它们,要么关注情景记忆(Blundell et al., 2016;Pritzel等人,2017;(Santoro et al., 2018)或学习实现不同目标的策略(Frans et al., 2017;Dosovitskiy & Koltun, 2016;Tessler等人,2017;(施瓦茨等,2018)。然而,情景记忆的内容不仅对单个任务有用,而且对完成多个连续任务也有用,此外还可以帮助人们获得新的技能。例如,你可以想象一个机器人家庭助手被指示去取回一个特定的物体。如果机器人在过去的房屋清洁中遇到过这个物体并回忆起它,那么这个记忆可以极大地帮助定位所请求的物体。

       在这项工作中,我们提出了一种能够存储环境情景表示的深度神经架构,以改进多任务问题的解决方案,并促进对新技能的持续学习。

2 相关工作

        多任务学习最流行的一种方法是同时对Agent进行所有任务的训练。这种方法称为批量多任务学习(Chen & Liu, 2016)。在深度强化学习领域,它通常与权值共享技术相结合。在这种情况下,子任务网络共享它们的部分层,而当

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值