Go-Explore:一种解决探索难题的新方法

该算法解决了Atari游戏中最难的游戏,让它看起来易如反掌!这个现代版的Dijkstra最短路径算法在性能上远超其他算法,并且都是基于随机探索。https://arxiv.org/abs/1901.10995https://eng.uber.com/go-explore/https://github.com/uber-research/go-explore摘要:强化学习中的一个重大挑战是智能探索,尤其是在奖励稀疏或具有欺骗性时。两个Atari游戏作为此类难探索领域的基准:蒙特祖玛的复仇和陷阱。在这两个游戏中,当前的RL算法表现不佳,即使是那些具有内在动机的算法,而内在动机是提高难探索领域性能的主要方法。为了解决这一缺陷,我们提出了一种名为Go-Explore的新算法。它利用以下原则:(1)记住以前访问过的状态,(2)首先返回到一个有希望的状态(无需探索),然后从该状态探索,以及(3)通过任何可用方法(包括引入确定性)解决模拟环境,然后通过模仿学习进行稳健化。这些原则的综合效果极大地提高了对难探索问题的性能。在蒙特祖玛的复仇中,Go-Explore的平均得分超过43k点,几乎是之前最先进技术水平的4倍。Go-Explore还可以利用人为提供的领域知识,并在使用该知识的情况下,在蒙特祖玛的复仇中获得超过650k点的平均得分。其近1800万的最高性能超过了人类世界纪录,甚至满足了“超人类”性能的最严格定义。在陷阱中,带有领域知识的Go-Explore是第一个得分超过零的算法。其近60k点的平均得分超过了人类专家的表现。由于Go-Explore自动且廉价地产生高性能演示,因此它也优于人类提供解决方案演示的模仿学习工作。Go-Explore开辟了许多新的研究方向,以改进它并将它的见解融入到当前的RL算法中。它还可以帮助在许多领域中解决以前无法解决的难探索问题,尤其是那些在训练期间利用模拟器的问题(例如机器人)。作者:Adrien Ecoffet、Joost Huizinga、Joel Lehman、Kenneth O. Stanley、Jeff Clune

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

YannicKilcher

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值