【CMU博士论文】通过记忆的元强化学习

本文探讨了深度强化学习在数据效率上的挑战,并提出元学习作为解决办法,旨在设计能快速适应新环境的智能体。通过记忆机制,特别是情景间记忆,元学习智能体能在各种环境中提升策略改进速度。论文涵盖了具身环境中的智能体设计,以及如何在无强公共子结构的环境中应用元学习,包括并行执行框架和门控Transformer模型的使用,以提高性能和数据效率。
摘要由CSDN通过智能技术生成

e88394975690139cd9a80aec3ae5b754.png

来源:专知
本文为论文介绍,建议阅读5分钟
本文中,我们查看了所有怪物统计数据,以及它们与CR以及彼此之间的关系程度。

645410816334d327053a53d870e7b4dc.png

现代深度强化学习(RL)算法,尽管处于人工智能能力的最前沿,但通常需要大量的训练样本才能达到与人类相当的性能水平。这种严重的数据效率低下是深度RL实际应用的主要障碍:在没有模拟器的情况下,深度RL几乎不可能应用于任何领域。为了解决这种关键数据效率低下的问题,在本论文中,我们致力于设计能够快速适应新环境的元学习智能体。与标准的强化学习相比,元学习在特定的环境分布上进行学习,从这些环境中采样特定的任务,并直接优化元学习器,以提高策略改进的速度。通过利用与感兴趣任务具有共同子结构的任务分布,元学习器可以调整自己的归纳偏见,使其能够在测试时快速适应。

本论文的重点是设计元学习算法,利用记忆作为驱动快速适应新环境的主要机制。具有情景间记忆的元学习是一类元学习方法,利用基于特定环境的整个交互历史的记忆架构来产生策略。因此,在特定任务中驱动策略改进的学习动态被包含在序列模型的计算过程中,本质上把学习算法的设计交给了体系结构。虽然概念简单,但使用情景间记忆的元学习非常有效,仍然是最先进的方法。我们提出并讨论了几种通过记忆进行元学习的技术。

论文的第一部分集中在“具身”类环境,其中一个主体在一个类似自然世界的环境中有物理表现。我们利用这种高度结构化的环境集来设计具有快速记忆、规划和状态推断能力的整体嵌入式代理体系结构。在论文的第二部分,我们将重点放在没有强公共子结构的一般环境中应用的方法。首先,我们重新检查元学习代理与环境的交互模式:提出用一个并行执行框架来取代典型的顺序处理交互历史,其中多个智能体并行地在环境中行动。接下来,我们讨论了一个通用的和强大的序列模型的使用片段间存储器,门控transformer,展示了性能和数据效率的巨大改进。最后,我们开发了一种方法,可以显著降低(元)强化学习设置中transformer模型的训练成本和作用延迟,目的是(1)使它们在研究社区中更广泛地使用,(2)解锁它们在实时和延迟受限的应用中使用,如机器人。

https://www.ml.cmu.edu/research/phd-dissertation-pdfs/eparisot_phd_mld_2021.pdf

4e3657bdea5f5a58aa619487f6ea426f.png

bdf041c0c2c85e4adf525ff72b17e43c.png

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值