基于模型与不基于模型的深度增强学习_【ICLR2020】基于模型的强化学习算法玩Atari【附代码】

98dc7b4c13a0b696f769e662d7c29de5.png
  • 论文题目:Model Based Reinforcement Learning for Atari

a630dd8f38329f9420e733b11de107bd.png

所解决的问题?

model-free的强化学习算法已经在Atari游戏上取得了巨大成功,但是与人类选手相比,model-free的强化学习算法需要的交互数据往往大地多。其根本原因在于人类选手能够很容易学习到游戏的大概运行规律,从而进行预测规划。因此为了达到用少量数据学习控制Atari游戏的目的,作者提出了一种基于video prediction models的model based Simulated Policy Learning (SimPLe)算法,来解决需要大量交互数据的问题。在所学到的model上得到的policy,用于原始model上能够取得较好效果。主要贡献在于将planning算法与learned model结合起来,并取得了SOTA效果。

背景

人类选手可以在几分钟内学会玩Atari游戏,而及时最好的model-free强化学习方法也需要成百上千步迭代尝试才能达到,需要几周的训练时间。而人类选手能够做地这么好的原因就是:人类已经具备一些先验知识能够预测游戏接下来的走势。也有一些结合深度学习预测下一帧数据的方法,或者是预测奖励的方法,但是它们大多数都是用于model-free的强化学习算法上。model-free的强化学习算法做地比较好的有:RainbowIMPALA两大算法。而基于model-based的强化学习方法能够大大提高采样效率,以往的方法大多都在学习潜在的动力学方程,以及一些新奇的结合好奇心、反事实等东西做一些创新,以及其它的一些改进方法。

所采用的方法?

使用video prediction技术学习model,并且基于所学到的model训练得到policy。

预测Video

这一部分主要是依据Junhyuk Oh 2015年在Atari所做的Video prediction的工作,和Silvia Chiappa在2017年所做的Recurrent environment simulators这两篇文章来做的。本文作者主要是focus在学习如何预测才能更好地玩游戏,而不是在学习如何预测,而学习出来的model用于得到policy,并且在原环境model上也能取得较好效果。

Felix Leibfried在 2016 年将Video prediction的工作扩展到Video和reward的同时预测,但是并没有基于预测结果去做得到policy的这部分工作。大多数的这些类似的工作(包括本文)都是在隐式地编码游戏的模型。

为了获取更好的预测video的网络结构,作者基于models developed in the context of robotics和下述文献提出了stochastic video prediction model。

  • Aäron van den Oord, Oriol Vinyals, and Koray Kavukcuoglu. Neural discrete representation learning. In Isabelle Guyon, Ulrike von Luxburg, Samy Bengio, Hanna M. Wallach, Rob Fergus, S. V. N. Vishwanathan, and Roman Garnett (eds.), Advances in Neural Information Processing Systems 30: Annual Conference on Neural Information Processing Systems 2017, 4-9 December 2017, Long Beach, CA, USA, pp. 6306–6315, 2017.
  • Lukasz Kaiser and Samy Bengio. Discreteauto encoders for sequence models. CoRR, abs/1801. 09797, 2018.

predictive model has stochastic latent variables so it can be applied in highly stochastic environments

model-based

作者用的ppo算法。

整体算法

大体上的思路:其实就是用神经网络构建一个环境模型(world model),基于这个学习到的world model去得到policy,然后再拿这个policy与真实的环境进行交互,收集数据,然后更新神经网络训练得到的world model。算法伪代码如下:

9578b98d9b0676d301ea14ebf4c3e8c6.png

目的就是为了在减少与真实的环境互动的同时,获得在真实环境上较好的policy。初始的world model训练数据来自真实环境的随机rollout数据。

f1e90b1e15c30990da8ad7e432ebeb99.png

为了获取更好的world model,作者尝试了很多结构,最终提出一种 novel stochastic video prediction model 如下图所示:

c6d80f85f29100b039e97c7c7cb4da4a.png

取得的效果?

SimPLe在大多数游戏中比现今的SOTA算法还具有更高的采样效率。具体实验结果可以查看论文,主要是应用在Atari上的工作。

所出版信息?作者信息?

论文已被ICLR2020接收,作者Lukasz Kaiser谷歌大脑成员,主要研究神经网络和NLP领域,早期有做机器博弈相关理论研究。

32b39bc00f5235f9eb514e633619b6fc.png

其它参考链接

  • 官方博客介绍:https://sites.google.com/view/modelbasedrlatari/home
  • 代码链接:https://github.com/tensorflow/tensor2tensor/tree/master/tensor2tensor/rl

相关文献

  • Matteo Hessel, Joseph Modayil, Hado van Hasselt, Tom Schaul, Georg Ostrovski, Will Dabney, Dan Horgan, Bilal Piot, Mohammad Gheshlaghi Azar, and David Silver. Rainbow: Combining improvements in deep reinforcement learning. In Sheila A. McIlraith and Kilian Q. Weinberger (eds.), Proceedings of the Thirty-Second AAAI Conference on Artificial Intelligence, (AAAI-18), the 30th innovative Applications of Artificial Intelligence (IAAI-18), and the 8th AAAI Symposium on Educational Advances in Artificial Intelligence (EAAI-18), New Orleans, Louisiana, USA, February 2-7, 2018, pp. 3215–3222. AAAI Press, 2018
  • Lasse Espeholt, Hubert Soyer, Rémi Munos, Karen Simonyan, Volodymyr Mnih, Tom Ward, Yotam Doron, Vlad Firoiu, Tim Harley, Iain Dunning, Shane Legg, and Koray Kavukcuoglu. IMPALA: scalable distributed deep-rl with importance weighted actor-learner architectures. In Proceedings of the 35th International Conference on Machine Learning, ICML, pp. 1406–1415, 2018.
  • Junhyuk Oh, Xiaoxiao Guo, Honglak Lee, Richard L. Lewis, and Satinder P. Singh. Action conditional video prediction using deep networks in atari games. In NIPS, pp. 2863–2871, 2015.
  • Silvia Chiappa, Sébastien Racanière, Daan Wierstra, and Shakir Mohamed. Recurrent environment simulators. In 5th International Conference on Learning Representations, ICLR 2017, Toulon, France, April 24-26, 2017, Conference Track Proceedings. OpenReview.net, 2017. URL https: //http://openreview.net/forum?id=B1s6xvqlx.
  • Felix Leibfried, Nate Kushman, and Katja Hofmann. A deep learning approach for joint video frame and reward prediction in Atari games. CoRR, abs/1611.07078, 2016.
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值