DeepMind 的 Agent 57:征服 Atari 游戏的先驱
DeepMind 团队开发了名为 Agent 57 的强化学习智能体,这是第一个在所有 57 款 Atari 游戏中都达到人类或超人类水平的智能体。尽管一些游戏对强化学习智能体来说相对简单,但一些游戏,比如文中提到的一个例子,却极具挑战,主要是因为奖励机制。在这个例子中,奖励在很长一段时间内都没有提升,而这种奖励延迟的游戏对强化学习智能体来说非常困难。
Agent 57 基于 DeepMind 之前对原始深度 Q 网络的改进,并取得了突破性进展。它之所以被称为 Agent 57,是因为它成功战胜了所有 57 款 Atari 游戏,这些游戏类型多样,而一个系统能够征服所有游戏实属不易。
文章介绍了 Agent 57 背后的技术原理,包括强化学习中的基本概念:智能体、环境、观察、动作和奖励。智能体根据环境的观察做出行动,并根据环境的反馈获得奖励。不同的游戏拥有不同的奖励机制,例如在吃豆人游戏中,吃掉一颗豆子就会获得奖励,而在蒙特祖玛的复仇中,玩家需要探索房间,通过平台和梯子找到奖励。
Agent 57 的成功证明了强化学习在游戏领域取得的巨大进步,同时也为人工智能领域的发展指明了方向。
DeepMind 的 Agent57 是第一个在所有 57 个 Atari 基准游戏中胜过人类的强化学习代理。它通过元学习探索-利用权衡控制扩展了之前的算法,如永不放弃和 R2D2。https://arxiv.org/abs/2003.13350https://deepmind.com/blog/article/Agent57-Outperforming-the-human-Atari-benchmark摘要:在过去的十年里,Atari 游戏一直是强化学习 (RL) 社区中长期存在的基准。这个基准是为了测试 RL 算法的通用能力而提出的。之前的工作通过在该集合中的许多游戏中表现出色,但在几个最具挑战性的游戏中表现非常糟糕,从而获得了良好的平均性能。我们提出了 Agent57,这是第一个在所有 57 个 Atari 游戏中胜过标准人类基准的深度 RL 代理。为了实现这一结果,我们训练了一个神经网络,该网络参数化了一系列策略,从非常探索性的策略到纯粹的利用性策略。我们提出了一种自适应机制来选择在整个训练过程中优先考虑哪种策略。此外,我们利用了一种新颖的架构参数化,它允许更一致和稳定的学习。