世界模型也扩散!训练出的智能体竟然不错 , 在图像生成领域占据主导地位的扩散模型,开始挑战强化学习智能体。
世界模型提供了一种以安全且样本高效的方式训练强化学习智能体的方法。近期,世界模型主要对离散潜在变量序列进行操作来模拟环境动态。
然而,这种压缩为紧凑离散表征的方式可能会忽略对强化学习很重要的视觉细节。另一方面,扩散模型已成为图像生成的主要方法,对离散潜在模型提出了挑战。
受这种范式转变的推动,来自日内瓦大学、爱丁堡大学、微软研究院的研究者联合提出一种在扩散世界模型中训练的强化学习智能体 —— DIAMOND(DIffusion As a Model Of eNvironment Dreams)。
-
论文地址:https://arxiv.org/abs/2405.12399
-
项目地址:https://github.com/eloialonso/diamond
-
论文标题:Diffusion for World Modeling: Visual Details Matter in Atari
DIAMOND 在 Atari 100k 基准测试中获得了 1.46 的平均人类归一化得分 (HNS),可以媲美完全在世界模型中训练的智能体的 SOTA 水平。该研究提供了定性分析来说明,DIAMOND 的设计选择对于确保扩散世界模型的长期高效稳定是必要的。
此外,在图像空间中操作的好处是使扩散世界模型能够成为环境的直接替代品,从而提供对世界模型和智能体行为更深入的了解。特别地,该研究发现某些游戏中性能的提高源于对关键视觉细节的更好建模。
方法介绍
接下来,本文介绍了 DIAMOND, 这是一种在扩散世界模型中训练的强化学习智能体。具体来说