离散世界模型,带你轻松玩转 Atari 游戏

DreamerV2是首个在Atari基准上达到人类水平的世界模型RL智能体,它使用图像的抽象表征进行规划,实现了对无模型算法的超越。通过分类变量和KL平衡技术,提高了模型的预测精度,能够在有限的计算和样本资源下表现出色。
摘要由CSDN通过智能技术生成

文 / Google Research 学生研究员 Danijar Hafner

 

得益于深度强化学习 (RL),人工智能体能够随着时间的推移不断改进其决策。传统的无模型方法与环境交互,通过大量试错来学习预测不同情况下的成功动作。相较之下,深度 RL 的最新进展已经使得 基于模型的方法 能够从图像输入中学习精确的世界模型,并将其用于规划。这些世界模型可以从更少的交互中学习,推动离线数据的泛化,实现前瞻性探索,并允许在多个任务之间重复使用知识。

尽管现有的世界模型(如 SimPLe)拥有诱人的优势,但其仍不够精确,无法在最具竞争力的强化学习基准上与性能最佳的无模型方法相媲美:迄今为止,在完善的 Atari 基准测试中,我们需要使用 DQN、IQN 和 Rainbow 等无模型算法,才能达到人类的水准。因此,许多研究人员转而专注于开发 特定于任务 的规划方法,如 VPN 和 MuZero,这些方法通过预测预期任务奖励的总和进行学习。然而,这些方法均针对个别任务,目前尚不清楚其能在多大程度上推广到新任务或直接从无监督数据集中学习。与计算机视觉中无监督表征学习的最新突破 [1、2] 类似,世界模型旨在学习环境中比任何特定任务更普遍的模式,以便日后更有效地解决问题、完成任务。

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值