论文笔记 Retrospective Analysis of the 2019MineRL Competition on Sample Efficient Reinforcement Learning

最新推荐文章于 2021-08-23 11:53:55 发布

gorilla1211

最新推荐文章于 2021-08-23 11:53:55 发布

阅读量251

点赞数

分类专栏：论文笔记文章标签：强化学习

本文链接：https://blog.csdn.net/weixin_40247273/article/details/107512515

版权

论文笔记专栏收录该内容

8 篇文章 0 订阅

订阅专栏

摘要

论文作者在NeurIPS2019举办了在利用人类先验知识的sample-efficient强化学习上的MineRL挑战赛。强化学习中agent和环境的交互成本较高，若一个算法可以尽量少地与环境交互，即用尽量少的样本数量进行训练，则该算法是sample efficient的。MineRL挑战赛旨在发展使用协同人类示范（human demonstration）的强化学习来减少样本数量的算法。这些样本是指用以解决复杂的、分层的（hierarchical）、稀疏（sparse）的环境的样本。论文回顾top解决方案，每个团队都至少使用了深度强化学习（DRL）或模拟学习（imitation learning）。

介绍

尽管最近AI界使用深度强化学习取得了人类或超人类水平的表现，但这些技术使用了不断增加的算力。某种程度上，这归因于每个环境样本所需的计算量，但首要归因于训练这些学习算法所需的环境样本数量的增加。一个熟知的减少环境-样本复杂度的方法是利用人的示范和先验知识。

为了探索新颖的、利用人类先验知识解决序列决策问题的sample-efficient方法，论文作者团队在NeurIPS 2019大会举办了首届MineRL Competition。赛事提供了最大的Minecraft中人类轨迹的数据集。参赛团队开发程序来训练一个agent在Minecraft中挖掘钻石。为了限制计算要求，学习程序会在一个计算和环境样本的预算限定内，以随机权重开始重新训练，以此获得评估。论文作者找出了top解决方案中的高水平方法，例如利用人类示范和分层强化学习（hierarchical reinforcement learning）。

背景

由于种种原因，Minecraft是一个为单-agent和多-agent强化学习和规划算法提供测试环境的极佳工具。

之前的RL竞赛没有明确关注于使用模仿学习（一般来说，从示范中学习）。大部分之前的RL竞赛只关注在一个特定范围内表现良好，而不是开发出在一系列领域中都有良好表现的算法。这导致优胜提交方案通常需要人工设计特征和大量计算资源。

比赛回顾

任务

比赛任务是解决ObtainDiamond环境，包括在Minecraft中控制一个agent来得到钻石。一个学习算法可以直接获取到64×64像素agent视角的观察图像，以及一些离散的观察，包括agent拥有的用来获取钻石的物品。动作空间是连续视角调整（转身和俯仰）、二元移动（左/右、前/后）和离散动作（放置块、制作物品、提炼物品、采矿/打敌人）的笛卡儿积。

一个完整获取钻石的任务可以分解为一系列必要的子任务序列。reward从1开始。

subtask1的reward=1；
subtask2的reward=2；
subtask3的reward=3；
...
获取钻石的reward=上一个subtask得到reward的4倍

比赛设计

比赛分为2轮。

Round1：队伍最多6人。每个队伍最多上传25次。从中选出13个队伍进入Round2。

Round2：每个队伍最多提交5个学习程序。举办方为每次提交单独在Azure NC6和Azure NC12上训练6天，限制使用最多800万个样本。为了鼓励泛化能力和对规则的遵守，举办方会在重新训练中使用：1）一个扰动的动作空间；2）一个全新的纹理包（如Figure 1所示）。

为了鼓励模型的样本效率和泛化能力，以及防止参赛选手加载已经训练好的模型，比赛制定了严格的规则。环境样本最多800万帧（或大约110小时游戏交互时间），144小时的计算时间限制。允许跳帧（frame skipping）但是帧数照算进预算中。允许形成agent的观察但不能直接编入policy中（例如，不能通过分析获得的木材数来转变sub-policy）。上传的代码仓库（repository）小于4MB。

两轮中，参赛者提交与AIcrowd-repo2docker兼容的独立repository，包含代码、训练的模型、运行说明书。

资源

举办方提供资源：

补充的任务作为Gym environment。
综合的starter pack：包含广泛的文档、起始代码、提交程序和的描述、Microsoft Azure快速启动模板和Docker image。
大规模人类示范数据集。
Preferred Network提供广泛的baseline：behavior cloning、deep Q-learning from demonstrations（DQfD）、Rainbow、generative adversarial inverse RL（GAIL）、proximal policy optimization（PPO）。
AIcrowd：提供AIcrowd参赛统一接口
Microsoft Azure相关经费支持

参赛结果

提交结果

Top9 解决方案总结

前4名：分层RL；
所有团队：动作缩减（action reduction），如删减掉人类专家几乎从不使用的动作；
大部分团队：利用人类数据来提高样本效率（sample efficiency）

CDS：hierarchical deep Q-network with forgetting，使用一个自适应比例来从一个单独的demonstration replay buffer对专家示范进行采样；
mc_rl：完全从人类示范（无环境交互）中训练到分层policy；
i4DS：使用示范来作为分层RL的先导程序。利用人类数据预训练模型去根据观察预测人类动作，再用RL改善agent；
CraftRL：聚合合理的动作作为选项，然后用一个meta-controller来选择其中的选项。利用行为克隆（behavior cloning）在示范数据上预训练meta-controller；
UEFDRL：训练一个单层ResNet来模拟来自MineRL数据集的人类动作。使用动作离散化来降低环境复杂度；
TD240：使用一个判别器（discriminator）soft actor critic，该判别器使用一个基于adversarial inverse RL的判别器作为奖励函数（reward function）；
LAIR：使用meta-learning shared hierarchies（MLSH），并在通过环境交互训练MLSH前，利用人类数据预训练master和subpolicy；
Elystra：改进Rainbow baseline，给环境增加少量随机性，并把摄像头移动自由度限制为1。不过，他们还提出训练一个value function的集成模型的想法，并且相信这个方法是有效的。
karolisram：改进PPO baseline，移除跳帧（fram-skip），缩小动作空间。