Diffusion for World Modeling

whaosoft143

已于 2024-07-19 15:26:36 修改

阅读量306

点赞数 3

分类专栏：人工智能文章标签：人工智能

于 2024-05-23 21:10:27 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_29788741/article/details/139157815

版权

世界模型也扩散！训练出的智能体竟然不错 , 在图像生成领域占据主导地位的扩散模型，开始挑战强化学习智能体。

世界模型提供了一种以安全且样本高效的方式训练强化学习智能体的方法。近期，世界模型主要对离散潜在变量序列进行操作来模拟环境动态。

然而，这种压缩为紧凑离散表征的方式可能会忽略对强化学习很重要的视觉细节。另一方面，扩散模型已成为图像生成的主要方法，对离散潜在模型提出了挑战。

受这种范式转变的推动，来自日内瓦大学、爱丁堡大学、微软研究院的研究者联合提出一种在扩散世界模型中训练的强化学习智能体 —— DIAMOND（DIffusion As a Model Of eNvironment Dreams）。

论文地址：https://arxiv.org/abs/2405.12399
项目地址：https://github.com/eloialonso/diamond
论文标题：Diffusion for World Modeling: Visual Details Matter in Atari

DIAMOND 在 Atari 100k 基准测试中获得了 1.46 的平均人类归一化得分 (HNS)，可以媲美完全在世界模型中训练的智能体的 SOTA 水平。该研究提供了定性分析来说明，DIAMOND 的设计选择对于确保扩散世界模型的长期高效稳定是必要的。

此外，在图像空间中操作的好处是使扩散世界模型能够成为环境的直接替代品，从而提供对世界模型和智能体行为更深入的了解。特别地，该研究发现某些游戏中性能的提高源于对关键视觉细节的更好建模。

方法介绍

接下来，本文介绍了 DIAMOND，这是一种在扩散世界模型中训练的强化学习智能体。具体来说

最低0.47元/天解锁文章

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。