清华大学高阳:Mastering Atari Games with Limited Data

高阳,博士,清华大学交叉信息研究院助理教授。此前,他在美国加州大学伯克利分校获得博士学位,师从Trevor Darrell教授。他还在伯克利大学与Pieter Abbeel等人合作完成了博士后工作。高阳主要研究计算机视觉与机器人学。在此之前,高阳从清华大学计算机系毕业,与朱军教授在贝叶斯推理方面开展了研究工作。他还在2011-2012年在谷歌谷歌研究院进行了自然语言处理相关的研究工作、2016年在谷歌自动驾驶部门Waymo的相机感知团队实习。他在 2018年与Vladlen Koltun博士在英特尔研究院在端到端自动驾驶方面进行了研究工作。

报告内容:Reinforcement learning has achieved great success in many applications. However, sample efficiency remains a key challenge, with prominent methods requiring millions (or even billions) of environment steps to train.  Recently, there has been significant progress in sample-efficient image-based RL algorithms; however, consistent human-level performance on the Atari game benchmark remains an elusive goal. We propose a sample efficient model-based visual RL algorithm built on MuZero, which we name EfficientZero. Our method achieves 180% mean human performance, or 84.8% median performance on the Atari 100k benchmark with only two hours of real-time game experience. This is the first time an algorithm achieves super-human mean performance on Atari games with such little data. EfficientZero's performance is also close to DQN's performance at 200 million frames, however we consumes 500 times less data. EfficientZero's low sample complexity and high performance can bring RL closer to real-world applicability. Unlike previous MCTS-based RL algorithm, our algorithm can run on a single machine instead of requiring a distributed system. We implement our algorithm in an easy to understand manner, and will open-source it upon publication. We hope it will accelerate the research of MCTS-based RL algorithms in the wider community.

高阳作《Mastering Atari Games with Limited Data》报告分享

下方有文字版总结分享哦

从高维图像观测环境中学习有效策略

高阳及其团队目前关注的问题是如何从高维图像观测环境中学习到有效策略。2015年DeepMind研发的DQN网络在Atari的环境上取得了非常好的效果,他们也是第一个在这种大规模的数据集上和环境上取得和人类效果相似的工作,这也是第一次强化学习在大规模被应用,并取得比较成功的效果。之后在2016年DeepMind又继续进行AlphaGo的研发工作,在迭代版本的过程中AlphaGo、AlphaMaster、AlphaZero也陆续击败了包括当时世界排名第一柯洁在内非常多的围棋顶尖选手。宣告了在围棋这一项人类觉得计算机50年内不会有突破的游戏已经得到了解决,DeepMind后续完成的AlphaStar,实现了在Multi-Agent条件下战胜人类顶尖的队伍。但是这些环境的成功大多数在一些游戏中,比如Atari Games、围棋、星际争霸等等,而非在很多现实场景中。我们正尝试将强化学习推向在真实世界中更加有用的场景,而不仅仅局限于游戏内。

在这过程中高阳及其团队也分享了他们遇到的困难,最主要的就是强化学习通常需要非常多的数据量才能训练出一个较好的策略,用围棋举例,AlphaGo需要训练6600万盘游戏,这是人类训练一生都达不到的数据量,对于现实场景来说,我们并不可能让强化学习算法交互这么多次,这样的代价是非常大的,强化学习距离部署到真实环境的问题就是 Sample Efficient 的问题,在大多数强化学习训练的环境下数据资源是比较稀缺的,很多情况下并没有模拟器(Simulator),现实的复杂环境在搭建模拟器的过程中因为变量因素太多也很难实现,而且即使有设计的比较好的模拟器,也需要耗费很多的GPU和CPU资源,这就导致了数据资源在强化学习里面是比较难以获取的。

EfficientZero算法助力强化学习

随后高阳讲解了其团队在NeurIPS完成的工作,EfficientZero算法采用大家公认的多样化测试环境(Atari  Games),在这个环境下其数据效率相较于DQN算法有大幅提升。同时在Mujoco环境下测试了EfficientZero算法并与主流框架进行对比,发现可以在采用更少数据量的情况下达到最佳水平。

EfficientZero是基于MuZero改进而来,Muzero是DeepMind采用MCTS实现的一种Model-based算法,在国际象棋,围棋等项目中都取得了非常好的性能。EfficientZero由 Value/Policy Network、Reward Network、Representation Network、Dynamics Network组成。基于MuZero在Sample Efiiciency的缺点,高阳及其团队分析了其原因,并提出了针对性的改进方案,采用self-supervised model learning、value prefix、off-policy correction来解决MuZero算法的监督训练信号问题、环境奖励建模问题以及异策略偏差问题,使得该算法在经典学术环境下可通过较少数据量快速达到人类水平,并在部分环境上超越人类。

该算法的源代码预计会在之后的一个月左右发布。

扫码即可了解更多开源信息~

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值