谷歌发布强化学习算法SimPLe,学习效率提升两倍

深度强化学习(Deep reinforcement learning)利用奖励来推动软件政策朝着目标发展。该技术已被用于模拟社会规范的影响,创造出特别擅长玩游戏的人工智能,并为机器人编写程序,使其能够从恶劣的溢出中恢复过来。尽管强化学习功能多样,它也有一个明显的缺点:效率低下。训练策略需要在模拟的或真实的环境中进行大量的交互——远远超过普通人学习任务的需要。

为了在视频游戏领域有所弥补,谷歌的研究人员最近提出了一种新的算法——模拟策略学习,简称SimPLe,该算法通过游戏模型学习用于选择动作的质量策略。谷歌在一篇新发表的预印本论文(“Atari基于模型的强化学习”)和随开源代码一起发布的文档中对此进行了描述。

论文链接:https://arxiv.org/abs/1903.00374

开源代码:https://github.com/tensorflow/tensor2tensor/blob/master/tensor2tensor/rl/README.md

根据谷歌官方的介绍:

在高层次上,SimPLe背后的想法是在学习游戏行为的world模型和在模拟游戏环境中使用该模型优化策略(使用无模型强化学习)之间进行交替。该算法的基本原理已经很好地建立起来,并应用于许多最近的基于模型的强化学习方法中。

\"\"

SimPLe的主循环。1)代理开始与真实环境交互;2)收集的观测结果用于更新当前的world模型;3)代理通过在world模型内学习来更新策略。

如果成功地训练这样一个模型(如视频预测),一个本质上学会了模拟器的游戏环境,可以用来生成轨迹训练游戏代理的好策略,即选择一个操作序列,这样可以使代理的长期回报最大化。

在每次迭代中,在world模型被训练之后,就可以使用这个学习的模拟器来生成滚动(即动作、观察和结果的样本序列),这些滚动被用来使用近似策略优化(PPO)算法来改进游戏策略。滚动的采样从实际的数据集帧开始。由于预测错误通常会随着时间的推移而增加,使长期预测变得非常困难,SimPLe只使用中等长度的滚动。幸运的是,PPO算法也可以从其内部价值函数中学习动作和奖励之间的长期效果,因此有限长度的滚动对于像《highway》这样奖励稀疏的游戏来说也是足够的。

从效率方面来说,衡量成功的一个标准是证明该模型是高效的。为此,谷歌的研发人员在与环境进行了10万次交互之后评估了策略的输出,将SimPLe与两种最先进的无模型RL方法Rainbow和PPO进行了比较。在大多数情况下,SimPLe的样本效率比其他方法高出两倍以上。

\"\"

相应的无模型算法(左 - Rainbow;右 - PPO)所需的交互次数与SimPLe训练方法获得的得分相匹配。红线表示SimPLe使用的交互次数。

然而,SimPLe并不总是完美的。最常见的故障是:world模型不能准确地捕获或预测体积很小但相关度很高的对象。比如某些训练中,由于游戏中子弹的体积太小以至于几乎很难被模型捕捉到。

谷歌的研究人员认为:“基于模型的强化学习方法的主要前景是在交互成本高、速度慢或需要人工标记的环境中,例如许多机器人任务中。在这样的环境下,学习的模拟器可以更好地理解代理的环境,并可以为更多的任务强化学习提供新的,更好的和更快的方法。虽然SimPLe还没有达到标准无模型RL方法的性能,但它的效率要高得多,我们期望未来的工作能够进一步提高基于模型的性能。”

原文链接:

https://ai.googleblog.com/2019/03/simulated-policy-learning-in-video.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值