离散世界模型，带你轻松玩转 Atari 游戏

TensorFlow 社区

于 2021-04-14 10:45:56 发布

阅读量3.2k

点赞数 1

文章标签： tensorflow

本文链接：https://blog.csdn.net/tensorflowforum/article/details/115691933

版权

DreamerV2是首个在Atari基准上达到人类水平的世界模型RL智能体，它使用图像的抽象表征进行规划，实现了对无模型算法的超越。通过分类变量和KL平衡技术，提高了模型的预测精度，能够在有限的计算和样本资源下表现出色。

摘要由CSDN通过智能技术生成

文 / Google Research 学生研究员 Danijar Hafner

得益于深度强化学习 (RL)，人工智能体能够随着时间的推移不断改进其决策。传统的无模型方法与环境交互，通过大量试错来学习预测不同情况下的成功动作。相较之下，深度 RL 的最新进展已经使得基于模型的方法能够从图像输入中学习精确的世界模型，并将其用于规划。这些世界模型可以从更少的交互中学习，推动离线数据的泛化，实现前瞻性探索，并允许在多个任务之间重复使用知识。

世界模型

https://worldmodels.github.io/
在多个任务之间

https://bair.berkeley.edu/blog/2020/10/06/plan2explore/

尽管现有的世界模型（如 SimPLe）拥有诱人的优势，但其仍不够精确，无法在最具竞争力的强化学习基准上与性能最佳的无模型方法相媲美：迄今为止，在完善的 Atari 基准测试中，我们需要使用 DQN、IQN 和 Rainbow 等无模型算法，才能达到人类的水准。因此，许多研究人员转而专注于开发特定于任务的规划方法，如 VPN 和 MuZero，这些方法通过预测预期任务奖励的总和进行学习。然而，这些方法均针对个别任务，目前尚不清楚其能在多大程度上推广到新任务或直接从无监督数据集中学习。与计算机视觉中无监督表征学习的最新突破 [1、2] 类似，世界模型旨在学习环境中比任何特定任务更普遍的模式，以便日后更有效地解决问题、完成任务。

Atari 基准测试

https://gym.openai.com/envs/#atari
DQN

https://www.nature.com/articles/nature14236
1

https://arxiv.org/ab

最低0.47元/天解锁文章

TensorFlow 社区

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
1
评论
离散世界模型，带你轻松玩转 Atari 游戏

文 / Google Research 学生研究员 Danijar Hafner得益于深度强化学习 (RL)，人工智能体能够随着时间的推移不断改进其决策。传统的无模型方法与环境交互，通过大量试错来学习预测不同情况下的成功动作。相较之下，深度 RL 的最新进展已经使得基于模型的方法能够从图像输入中学习精确的世界模型，并将其用于规划。这些世界模型可以从更少的交互中学习，推动离线数据的泛化，实现前瞻性探索，并允许在多个任务之间重复使用知识。世界模型 https://wor...
复制链接

扫一扫