论文笔记 Retrospective Analysis of the 2019MineRL Competition on Sample Efficient Reinforcement Learning

摘要

论文作者在NeurIPS2019举办了在利用人类先验知识的sample-efficient强化学习上的MineRL挑战赛。强化学习中agent和环境的交互成本较高,若一个算法可以尽量少地与环境交互,即用尽量少的样本数量进行训练,则该算法是sample efficient的。MineRL挑战赛旨在发展使用协同人类示范(human demonstration)的强化学习来减少样本数量的算法。这些样本是指用以解决复杂的、分层的(hierarchical)、稀疏(sparse)的环境的样本。论文回顾top解决方案,每个团队都至少使用了深度强化学习(DRL)或模拟学习(imitation learning)。

 

介绍

尽管最近AI界使用深度强化学习取得了人类或超人类水平的表现,但这些技术使用了不断增加的算力。某种程度上,这归因于每个环境样本所需的计算量,但首要归因于训练这些学习算法所需的环境样本数量的增加。一个熟知的减少环境-样本复杂度的方法是利用人的示范和先验知识。

为了探索新颖的、利用人类先验知识解决序列决策问题的sample-efficient方法,论文作者团队在NeurIPS 2019大会举办了首届MineRL Competition。赛事提供了最大的Minecraft中人类轨迹的数据集。参赛团队开发程序来训练一个agent在Minecraft中挖掘钻石。为了限制计算要求,学习程序会在一个计算和环境样本的预算限定内,以随机权重开始重新训练,以此获得评估。论文作者找出了top解决方案中的高水平方法,例如利用人类示范和分层强化学习(hierarchical reinforcement learning)。

 

背景

由于种种原因,Minecraft是一个为单-agent和多-agent强化学习和规划算法提供测试环境的极佳工具。

之前的RL竞赛没有明确关注于使用模仿学习(一般来说,从示范中学习)。大部分之前的RL竞赛只关注在一个特定范围内表现良好,而不是开发出在一系列领域中都有良好表现的算法。这导致优胜提交方案通常需要人工设计特征和大量计算资源。

 

比赛回顾

任务

比赛任务是解决ObtainDiamond环境, 包括在Minecraft中控制一个agent来得到钻石。一个学习算法可以直接获取到64×64像素agent视角的观察图像,以及一些离散的观察,包括agent拥有的用来获取钻石的物品。动作空间是连续视角调整(转身和俯仰)、二元移动(左/右、前/后)和离散动作(放置块、制作物品、提炼物品、采矿/打敌人)的笛卡儿积。

一个完整获取钻石的任务可以分解为一系列必要的子任务序列。reward从1开始。

  • subtask1的reward=1;
  • subtask2的reward=2;
  • subtask3的reward=3;
  • ...
  • 获取钻石的reward=上一个subtask得到reward的4倍

比赛设计

比赛分为2轮。

Round1:队伍最多6人。每个队伍最多上传25次。从中选出13个队伍进入Round2。

Round2:每个队伍最多提交5个学习程序。举办方为每次提交单独在Azure NC6和Azure NC12上训练6天,限制使用最多800万个样本。为了鼓励泛化能力和对规则的遵守,举办方会在重新训练中使用:1)一个扰动的动作空间;2)一个全新的纹理包(如Figure 1所示)。

为了鼓励模型的样本效率和泛化能力,以及防止参赛选手加载已经训练好的模型,比赛制定了严格的规则。环境样本最多800万帧(或大约110小时游戏交互时间),144小时的计算时间限制。允许跳帧(frame skipping)但是帧数照算进预算中。允许形成agent的观察但不能直接编入policy中(例如,不能通过分析获得的木材数来转变sub-policy)。上传的代码仓库(repository)小于4MB。

两轮中,参赛者提交与AIcrowd-repo2docker兼容的独立repository,包含代码、训练的模型、运行说明书。

资源

举办方提供资源:

  • 补充的任务作为Gym environment。
  • 综合的starter pack:包含广泛的文档、起始代码、提交程序和的描述、Microsoft Azure快速启动模板和Docker image。
  • 大规模人类示范数据集。
  • Preferred Network提供广泛的baseline:behavior cloning、deep Q-learning from demonstrations(DQfD)、Rainbow、generative adversarial inverse RL(GAIL)、proximal policy optimization(PPO)。
  • AIcrowd:提供AIcrowd参赛统一接口
  • Microsoft Azure相关经费支持

 

参赛结果

提交结果

Top9 解决方案总结

  • 前4名:分层RL;
  • 所有团队:动作缩减(action reduction),如删减掉人类专家几乎从不使用的动作;
  • 大部分团队:利用人类数据来提高样本效率(sample efficiency)
  1. CDS:hierarchical deep Q-network with forgetting,使用一个自适应比例来从一个单独的demonstration replay buffer对专家示范进行采样;
  2. mc_rl:完全从人类示范(无环境交互)中训练到分层policy;
  3. i4DS:使用示范来作为分层RL的先导程序。利用人类数据预训练模型去根据观察预测人类动作,再用RL改善agent;
  4. CraftRL:聚合合理的动作作为选项,然后用一个meta-controller来选择其中的选项。利用行为克隆(behavior cloning)在示范数据上预训练meta-controller;
  5. UEFDRL:训练一个单层ResNet来模拟来自MineRL数据集的人类动作。使用动作离散化来降低环境复杂度;
  6. TD240:使用一个判别器(discriminator)soft actor critic,该判别器使用一个基于adversarial inverse RL的判别器作为奖励函数(reward function);
  7. LAIR:使用meta-learning shared hierarchies(MLSH),并在通过环境交互训练MLSH前,利用人类数据预训练master和subpolicy;
  8. Elystra:改进Rainbow baseline,给环境增加少量随机性,并把摄像头移动自由度限制为1。不过,他们还提出训练一个value function的集成模型的想法,并且相信这个方法是有效的。
  9. karolisram:改进PPO baseline,移除跳帧(fram-skip),缩小动作空间。

 

特殊奖励

颁发了2个特殊奖励:

  • 完全使用模仿学习(无环境交互):mc_rl
  • 完全使用RL(无人类数据):karolisram

后面少部分内容:略


Reference

  1. Milani S , Topin N , Houghton B , et al. Retrospective Analysis of the 2019 MineRL Competition on Sample Efficient Reinforcement Learning[J]. 2020.
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值