RL Unplugged: Benchmarks for Offline Reinforcement Learning

RL Unplugged: Benchmarks for Offline Reinforcement Learning

1.引言部分:

主要讲强化学习的发展和应用。

介绍离线学习的研究意义:

(1)利用已有的数据集对RL agent进行预训练。

(2)从经验角度分析根据RL算法利用固定交互数据集的能力来评估它们。

(3)桥接在RL的学术兴趣和实际应用之间的差距。

介绍离线学习的存在问题:

缺乏通用的评价标准(evaluation protocol)以及不同的数据集让算法的相互比较变的困难。现实任务的一些困难,比如partially observable、高维输入、高维aciton space、探索问题、训练不稳定性、环境随机性等等问题使得offline RL算法的实际应用潜力变得无法估计。

该论文的贡献:

(1) 提出了标准化的数据集API,(2) 提供了很多环境,(3) 提出了offline RL的evaluation protocol,(4) 实现了一些基准算法并给出了他们的性能结果。

2. RL Unplugged

RL Unplugged是围绕以下考虑而设计的,为数据集提供一个统一的API,使从业者能够轻松地处理所有数据在此工具中,一旦建立了通用管道。我们进一步提供了一些基线,包括与我们的API兼容的最先进算法

介绍各种数据集并对他们的属性分类:

action space:离散数据和连续数据都有。最高有56维度的数据。

observation space:有low-dimensional的state数据,也有图像数据。对于操控任务来说,同时我们还保存了第三人称(third-person view)的额外图像数据。

partial observability:有些任务能给出全部的场上信息,有些没有。

difficulty of exploration:不同任务的探索难度不同。比如action space的大小、reward的稀疏程度、问题的horizon长度等等。

real-world challenges:我们还引入了一些来自Real-World RL suite的任务。包含了action delays, non-stationary, stochastic transition dynamics等问题。

异策略和同策略的流程图对比图

3.Task

可以处理的任务和包括的任务如下:

DM Control Suite包括了manipulation和locomotion的一些任务

基本使用D4PG生成。所有的input都采用原本的raw satet,比如关节的角度和速度等。observation dim从5到67不等。

如人形跑,机械手插入钉,机械手插入球。人形跑步包括21个自由度的复杂身体组合。

DM Locomotion轨迹由这篇文章的方法给出:(paper) Neural Probabilistic Motor Primitives for Humanoid Control (一种模仿学习算法)。训练过程中的全部样本都会用起来,并且进行sub-sample,使得成功的episode数目占比为2/3。相机输入是64x64x3。

适应于虚拟啮齿类动物,具有挑战性的高自由度连续控制与感知的组合,丰富的以自我为中心的观察。

Atari 2600包含46个Atari游戏。在这些游戏中agent的表现比random policy要好。我们选中了9个游戏支持online policy selection。事实上,我们把46个游戏环境进行了难度的划分。并且每隔5个挑一个得到支持online selection的游戏。

难度划分的方法是看offline DQN和online DQN的性能的比较。如果一个游戏的offline DQN比expert要差很多的话,我们就说这个游戏很难。

Atari游戏需要回报一个normalized performance,具体算法是使用这个公式:, 分别表示offline agent、最好的online agent(训练过程中出现的)、随机agent这三个agent在一个游戏中的分数。

4. Baselines

 

 

不同方法在不同任务的不同表现。

5.相关工作

6.结论

我们发布了RL Unplugged,这是一组涵盖了各种环境的基准测试,具有易于使用的统一API的数据集。我们提出了一份明确的评估方案,我们希望它能够实现鼓励更多的线下政策选择研究。我们在线下以经验评估几种最先进的技术RL方法,并在我们的基准测试套件上分析它们的结果。离线RL方法的性能已经在一些控制套件任务和雅达利游戏上实现。然而,在partially-observable在移动套件等环境下,离线的RL方法的性能较低。我们打算使用来自社区的新环境和数据集扩展我们的基准测试套件,以缩小差距在现实世界的应用和强化学习研究之间。

如果有帮助请点赞!

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值