Go-Explore：一种解决探索难题的新方法

最新推荐文章于 2024-09-13 15:56:44 发布

YannicKilcher

最新推荐文章于 2024-09-13 15:56:44 发布

阅读量308

点赞数 4

文章标签：音视频实时音视频

本文链接：https://blog.csdn.net/YannicKilcher/article/details/141059030

版权

该算法解决了Atari游戏中最难的游戏，让它看起来易如反掌！这个现代版的Dijkstra最短路径算法在性能上远超其他算法，并且都是基于随机探索。https://arxiv.org/abs/1901.10995https://eng.uber.com/go-explore/https://github.com/uber-research/go-explore摘要：强化学习中的一个重大挑战是智能探索，尤其是在奖励稀疏或具有欺骗性时。两个Atari游戏作为此类难探索领域的基准：蒙特祖玛的复仇和陷阱。在这两个游戏中，当前的RL算法表现不佳，即使是那些具有内在动机的算法，而内在动机是提高难探索领域性能的主要方法。为了解决这一缺陷，我们提出了一种名为Go-Explore的新算法。它利用以下原则：（1）记住以前访问过的状态，（2）首先返回到一个有希望的状态（无需探索），然后从该状态探索，以及（3）通过任何可用方法（包括引入确定性）解决模拟环境，然后通过模仿学习进行稳健化。这些原则的综合效果极大地提高了对难探索问题的性能。在蒙特祖玛的复仇中，Go-Explore的平均得分超过43k点，几乎是之前最先进技术水平的4倍。Go-Explore还可以利用人为提供的领域知识，并在使用该知识的情况下，在蒙特祖玛的复仇中获得超过650k点的平均得分。其近1800万的最高性能超过了人类世界纪录，甚至满足了“超人类”性能的最严格定义。在陷阱中，带有领域知识的Go-Explore是第一个得分超过零的算法。其近60k点的平均得分超过了人类专家的表现。由于Go-Explore自动且廉价地产生高性能演示，因此它也优于人类提供解决方案演示的模仿学习工作。Go-Explore开辟了许多新的研究方向，以改进它并将它的见解融入到当前的RL算法中。它还可以帮助在许多领域中解决以前无法解决的难探索问题，尤其是那些在训练期间利用模拟器的问题（例如机器人）。作者：Adrien Ecoffet、Joost Huizinga、Joel Lehman、Kenneth O. Stanley、Jeff Clune