《强化学习周刊》第23期:NeurIPS 2021强化学习的最新研究与应用

No.23

智源社区

强化学习组

 习

50c73947b7ef880d4aa887ae1c2d44a2.png

研究

观点

资源

活动

关于周刊

强化学习作为人工智能领域研究热点之一,其研究进展与成果也引发了众多关注。并且诸多研究成果发表于NeurIPS 2021学术会议中,为帮助研究与工程人员了解该领域的相关进展和资讯,智源社区结合领域内容,撰写为第23期《强化学习周刊》。本期周刊整理了NeurIPS 2021中强化学习领域相关的最新论文推荐和新工具等,以飨诸位。

周刊采用社区协作的模式产生,欢迎感兴趣的朋友们参与我们的工作,一起来推动强化学习社群的分享、学习和交流活动。可以扫描文末的二维码加入强化学习社区群。

本期贡献者:李明,刘青,小胖

23d71af610d18d778a0ca401ccca0018.png

2c9f5b6fe823070b7296f8d0c74d9a7e.png

b78b0de94e271300eedb94a4a5bc6ab8.png

712965924e57b38e58fb78dcbea2e48c.png

688faddcb8a0cedf162d51e73b0c2b59.png

论文推荐

强化学习近年来取得了令人瞩目的成就,其应用于各个领域的研究也取得较大的进步。人工智能顶会NeurIPS 2021对强化学习取得了一系列瞩目的进展进行了发布,比如基于不确定性的离线强化学习、基于探索性强化学习、在线鲁棒强化学习、基于统计的深度强化学习、协作多智能体强化学习、共享多智能体强化学习、基于视觉模型的强化学习相关的理论及其最新应用等。

本次推荐了15篇NeurIPS 2021强化学习领域的相关论文,主要涉及具有多样化 Q-Ensemble 的基于不确定性的离线强化学习、通过探索性 RL 和基于片段的分子生成进行命中和领先发现、基于模型不确定性的在线鲁棒强化学习、基于统计边缘的深度强化学习、理解协作多智能体 Q 学习中的线性值分解、共享多智能体强化学习的庆祝多样性、基于视觉模型的强化学习中因果发现的系统评价、随机偏微分方程在线控制的深度强化学习、RLDS:在强化学习中生成、共享和使用数据集的生态系统、NeoRL:离线强化学习的近乎真实世界的基准、Alchemy:元强化学习代理的基准和分析工具包 、CARL:上下文和自适应强化学习的基准等。

标题:Uncertainty-Based Offline Reinforcement Learning with Diversified Q-Ensemble(具有多样化 Q-Ensemble 的基于不确定性的离线强化学习)了解详情

简介:离线强化学习(离线 RL)旨在从先前收集的静态数据集中找到最佳策略,由于来自分布外 (OOD) 数据点的函数逼近误差而面临算法困难。为此,离线 RL 算法采用约束或惩罚项,明确引导策略接近给定数据集。然而,先前的方法通常需要准确估计行为策略或从 OOD 数据点采样此外这些方法没有充分利用深度神经网络的泛化能力,并且经常陷入过于接近给定数据集的次优解决方案。本文提出了基于不确定性的离线 RL 方法,其考虑了 Q 值预测的置信度,不需要对数据分布进行任何估计或采样。研究表明clipped Q-学习是一种广泛用于在线 RL 的技术,其可用于成功惩罚具有高预测不确定性的 OOD 数据点。并在各种任务上大大优于现有的离线 RL 方法。基于此,本文又提出了集成多样化的actor-critic算法,与原始集成相比,该算法将所需集成网络的数量减少到十分之一,同时在所考虑的大多数 D4RL 基准测试中实现了最先进的性能。

论文链接:https://arxiv.org/pdf/2110.01548.pdf

标题:Hit and Lead Discovery with Explorative RL and Fragment-based Molecule Generation(通过探索性 RL 和基于片段的分子生成进行命中和领先发现)了解详情

简介:近年来,应用强化学习(RL)生成具有所需性质的分子已成为药物设计的一种有前途的策略。分子对接程序—一种评估蛋白质小分子结合亲和力的物理模拟可以成为RL的理想奖励评分函数,因为它是治疗潜力的直接代表。但该任务仍面临此类模型通常无法生成化学上真实且药物化学上可接受的分子和对接分数优化是一个困难的探索问题,涉及到许多局部最优解和分子结构不太光滑的表面。为此,本文提出了一种新的RL框架,以产生具有大对接分数的药理学上可接受的分子。基于片段的生成RL和探索性经验重放用于药物设计(FREED)-将生成的分子限制在真实且合格的化学空间,并通过耦合基于片段的生成方法和新的错误优先经验重放(PER)有效地探索发现药物的空间。研究表明该模型在de novo 和基于支架的方案上都表现良好。且产生的分子质量更高,通过消融研究进一步表明,本文的预测误差PER(FREED(PE))方法显著提高了模型性能。

论文链接:https://arxiv.org/pdf/2110.01219.pdf

标题:Online Robust Reinforcement Learning with Model Uncertainty(基于模型不确定性的在线鲁棒强化学习)了解详情

简介:鲁棒强化学习(RL)是在不确定的MDP集上找到一种优化最坏情况性能的策略。本文聚焦于无模型鲁棒RL,其中不确定性集被定义为以错误指定的MDP为中心,该MDP顺序生成单个样本轨迹,并假设为未知。通过基于样本的方法来估计未知不确定性集,并设计了一种鲁棒Q-学习算法(表格形式)和鲁棒TDC算法(函数近似设置),该算法可以在线和增量方式实现。对于鲁棒Q-学习算法,本文证明了它收敛到最优鲁棒Q函数,对于鲁棒TDC算法,本文证明了它渐近收敛到一些平稳点。该算法不需要任何额外的贴现因子条件来保证收敛性。数值实验进一步证明了算法的鲁棒性。该方法可以很容易地扩展到许多其他算法,例如TD、SARSA和其他GTD算法。

论文链接:https://arxiv.org/pdf/2109.14523.pdf

标题:Deep Reinforcement Learning at the Edge of the Statistical Precipice(基于统计边缘的深度强化学习)了解详情

简介:深度强化学习 (RL) 算法主要通过比较它们在大量任务上的相对性能来评估。现有已发表的深度强化学习基准测试结果都比较了总体性能的点估计,忽略了使用有限数量的训练运行所隐含的统计不确定性。从 Arcade 学习环境 (ALE) 开始,向计算要求高的基准的转变导致每个任务只评估少量运行的做法,加剧了点估计的统计不确定性。本文认为在少数运行深度强化学习机制中的可靠评估不能忽略结果的不确定性。通过使用 Atari 100k 基准测试的案例研究研究发现仅从点估计得出的结论与更彻底的统计分析之间存在很大差异。本文倡导报告总体性能的区间估计,并提出性能配置文件以解释结果的可变性,以及提供更强大和有效的总体指标,例如作为四分位数平均分数,以实现结果的小不确定性。使用此类统计工具,在其他广泛使用的 RL 基准测试(包括 ALE、Procgen 和 DeepMind Control Suite)上仔细检查现有算法的性能评估,再次揭示了先前比较中的差异。若要求改变评估deep RL性能的方式,本文提出了更严格的评估方法,并提供了一个开源的rliable库,以防止不可靠的结果使该领域停滞不前。

论文链接:https://arxiv.org/pdf/2108.13264.pdf

标题:Towards Understanding Linear Value Decomposition in Cooperative Multi-Agent Q-Learning(理解协作多智能体 Q 学习中的线性值分解)了解详情

简介:值分解是一种流行且有前途的方法,可以在合作环境中扩展多智能体强化学习。然而,对这些方法的理论理解是有限的。本文介绍了一种拟合 Q 迭代框架的变体,用于分析具有值分解的多智能体 Q 学习。基于这个框架,推导出了一个封闭形式的解决方案,用于使用线性值分解的经验贝尔曼误差最小化。通过这个新颖的解决方案,进一步揭示了两个有趣的见解:1)线性值分解隐式地实现了一个经典的多智能体信用分配,称为反事实差异奖励;2) On-policy 数据分布或更丰富的 Q 函数类可以提高多智能体 Q-learning 的训练稳定性。在实证研究中,实验证明了理论封闭式公式的可实现性。

论文链接:https://arxiv.org/pdf/2006.00587.pdf

标题:Celebrating Diversity in Shared Multi-Agent Reinforcement Learning(共享多智能体强化学习的庆祝多样性)了解详情

简介:近年来,深度多智能体强化学习(MARL)在解决复杂的协作任务方面显示出巨大的潜力。它的成功部分是由于代理之间的参数共享。然而,这种共享可能导致代理的行为类似,并限制其协调能力。在本文中,论文目标是在共享多智能体强化学习的优化和表示中引入多样性。具体来说,论文提出了一种信息理论正则化,以最大化代理身份与其轨迹之间的互信息,鼓励广泛的探索和多样化的个性化行为。在表示方面,论文在共享神经网络结构中加入了特定于agent的模块,这些模块通过L1范数进行正则化,以促进agent之间的学习共享,同时保持必要的多样性。

论文链接:https://arxiv.org/pdf/2106.02195.pdf

标题:A Benchmark for Low-Switching-Cost Reinforcement Learning(低转换成本强化学习的基准)了解详情

简介:该论文研究需要低转换成本的强化学习问题,即在培训过程中最少的策略转换次数。这种需求在许多应用程序中普遍存在,如医疗领域、推荐系统等,其中实际与环境交互的部署策略不能频繁更改。最近有一种理论研究趋势,旨在设计具有低切换成本的可证明有效的RL算法,其中决定是否改变部署策略的关键标准是信息增益。论文实证研究了这些理论指导标准以及其他基线,发现它们都有一定的缺陷。论文还提出了一种新的基于部署策略和学习策略之间特征距离的自适应方法。通过在医疗环境、Atari游戏和机器人控制任务上的大量实验,报告了如何在不受低切换成本约束的情况下降低切换成本,同时保持类似样本效率的新发现。

论文链接:https://openreview.net/pdf?id=iG0JGZj7F2-

标题:Systematic Evaluation of Causal Discovery in Visual Model Based Reinforcement Learning (基于视觉模型的强化学习中因果发现的系统评价)了解详情

简介:从观察中归纳因果关系是机器学习中的一个经典问题。大多数关于因果关系的工作都是从因果变量本身被观察的前提开始的。为了很好地概括,主体必须归纳出高级变量,特别是那些因果变量或受因果变量影响的变量。因此,人工智能和因果关系的中心目标是联合发现抽象表示和因果结构。然而,现有的研究因果归纳的环境并不适合这一目标,因为它们具有复杂的特定于任务的因果图,无法进行参数化操作(例如,节点数量、稀疏性、因果链长度等)。该论文目标是促进学习高级变量的表征以及它们之间的因果结构的研究。为了系统地探索方法识别这些变量和结构的能力,设计了一套基准测试RL环境。

论文链接:https://openreview.net/pdf?id=gWIbXsrtOCc

标题:CORA: Benchmarks, Baselines, and a Platform for Continual Reinforcement Learning Agents(CORA:基准、基线和持续强化学习代理的平台)了解详情

简介:随着基于学习的方法朝着使机器人控制器设计自动化的方向发展,将学习到的策略转移到具有不同动态特性的新域(例如,从模拟到真实的转移)仍然需要人工。本文介绍了SimGAN,它是一种解决领域适应问题的框架,它通过使用学习的判别性损失来解决与人工损失设计相关的局限性,从而确定混合物理模拟器以将模拟轨迹与目标领域的轨迹相匹配。我们的混合模拟器将神经网络和传统物理模拟相结合,以平衡表现力和通用性,并减少了在系统ID中精心选择的参数集的需求。通过对抗性强化学习识别出混合模拟器之后,就可以将其用于优化目标领域的策略,无需收集更多数据。

论文链接:https://openreview.net/pdf?id=Fr_KF_lMCMr

标题:Deep Reinforcement Learning for Online Control of Stochastic Partial Differential Equations(随机偏微分方程在线控制的深度强化学习)了解详情

简介:在许多领域,如物理科学、生命科学和金融领域,控制方法被用于在由微分方程控制的复杂动力系统中实现预期目标。在这项工作中,我们将控制随机偏微分方程(SPDE)问题描述为一个强化学习问题。论文提出了一种基于学习的分布式控制方法,用于使用深度确定性策略梯度法在线控制具有高维状态-动作空间的SPDE系统。在控制随机Burgers方程的问题上测试了提出的方法性能,该方程描述了无限大区域中的混沌流体流动。

论文链接:https://openreview.net/pdf?id=TjECt9pAr4s

标题:RLDS: an Ecosystem to Generate, Share and Use Datasets in Reinforcement Learning(RLDS:在强化学习中生成、共享和使用数据集的生态系统)了解详情

简介:本文介绍了 RLDS(强化学习数据集),这是一个生态系统,用于在包括强化学习(RL)、从演示中学习、离线 RL 或模仿学习在内的顺序决策(SDM)环境中记录、重放、操作、注释和共享数据。RLDS 不仅可以重现现有研究并轻松生成新数据集,还可以加速新研究。通过提供标准和无损格式的数据集,它可以在更广泛的任务中快速测试新算法。RLDS 生态系统可以轻松共享数据集,而不会丢失任何信息,并且在将各种数据处理传递途径应用于大型数据集集合时,无需了解底层原始格式。此外,RLDS 提供了用于收集合成智能体或人类生成的数据的工具,以及检查和处理收集到的数据。

论文链接:https://openreview.net/pdf?id=uce6UK2fW4O

标题:MDP Playground: An Analysis and Debug Testbed for Reinforcement Learning(MDP Playground:强化学习的分析和调试测试平台)了解详情

简介:本文提出了 MDP Playground,这是一个具有正交维度的强化学习智能体的有效测试平台,可以独立控制以不同方式挑战智能体,并在生成的环境中获得不同程度的硬度。本文考虑并允许控制各种维度,包括延迟奖励、奖励密度、随机性、图像表示、不相关的特征、时间单位、动作范围等。本文通过改变这些方面来定义 OpenAI Gym 中快速运行玩具环境的参数化集合,并建议使用这些维度来更好地理解智能体。本文还提供了将这些维度注入 Gym 环境的包装器。本文中已在 Atari 和 Mujoco 上使用这些包装器来了解这些维度对复杂环境的影响。

论文链接:https://openreview.net/pdf?id=h6YRaULThaK

标题:NeoRL: A Near Real-World Benchmark for Offline Reinforcement Learning(NeoRL:离线强化学习的近乎真实世界的基准)了解详情

简介:离线强化学习(RL)旨在从一批收集的数据中学习最佳策略,而在训练过程中无需与环境进行额外的交互,因此极大地扩展RL的应用范围。但当前的离线RL基准通常存在很大的现实差距。它们涉及由高度探索性策略收集的大型数据集,并且在环境中直接评估经过训练的策略。同时,在现实世界中,禁止运行高度探索性的策略以确保系统安全,数据通常非常有限,并且在部署之前应充分验证经过训练的策略。本文提出了一套接近真实的基准测试,即NeoRL。NeoRL 包含来自具有受限数据收集策略的 Gym-MuJoCo 任务和三个开源环境的数据集。此外,NeoRL 包含在线测试之前的离线训练和离线验证传递途径,类似于现实世界的情况。

论文链接:https://openreview.net/pdf?id=CIN8FUBvahS

标题:Alchemy: A benchmark and analysis toolkit for meta-reinforcement learning agents(Alchemy:元强化学习代理的基准和分析工具包 )了解详情

简介:元学习作为一种提高强化学习灵活性和样本效率的方法近年来备受重视。然而,这一研究领域的一个问题是缺乏足够的基准任务。总的来说,过去基准测试的基础结构要么太简单以至于本身不有趣,要么定义不清而无法支持原则性分析。本文为元强化学习研究引入了一个新的基准,强调透明度和深入分析的潜力以及结构的丰富性。Alchemy 是一款在 Unity 中实现的 3D 视频游戏,它涉及潜在的因果结构,该结构从回合到回合按程序重新采样,提供基于抽象领域知识的结构学习、在线推理、假设检验和动作排序。本文在 Alchemy 上评估了一对强大的 RL 智能体,结果清楚地表明元学习的具体问题,为 Alchemy 作为元强化学习的具有挑战性的基准提供了验证。

论文链接:https://openreview.net/pdf?id=eZu4BZxlRnX

标题:CARL: A Benchmark for Contextual and Adaptive Reinforcement Learning(CARL:上下文和自适应强化学习的基准)了解详情

简介:算法脆弱是 RL 在实际应用中的一个限制因素。尽管研究界一直致力于提高 RL 算法的鲁棒性和泛化性,但它仍然缺乏基于一致理论框架的一组定义明确的开源基准问题,该框架允许以公平、可靠和可重复的方式比较不同的方法。本文提出 CARL,这是一组众所周知的 RL 环境,扩展到上下文 RL 问题以研究泛化。本文通过证明如果必须考虑此任务的不同上下文实例,即使是简单的玩具环境对常用方法也具有挑战性,从而表明对此类基准的迫切需求。此外,CARL 能够提供第一个证据,证明将状态的表征学习与上下文的策略学习分开有助于更好的泛化。

论文链接:https://openreview.net/pdf?id=6D45bYP5MRP

3e0193af108219bea983f576c1e67f30.png

dc19941081a94a7efd58c3f57d60726a.png

e252d1c6c9a0c7e0b245351c10d51579.png

2a689adc40441fe0a8e91442b96f1da0.png

a9d223d1e072081e6d5324f046539236.png

新工具

MiniHack the Planet:开放式强化学习研究的沙盒了解详情

简介:强化学习 (RL) 的进步很大程度上受到用于训练智能体的具有挑战性的基准的可用性的推动。但是,社区广泛采用的基准测试并未明确设计用于评估 RL 方法的特定功能。虽然存在用于评估 RL 中特定开放问题的环境,但一旦研究超出证明范围,通常很难将这些扩展到更丰富、更复杂的环境概念里验证结果。本文提出了 MiniHack,这是一个强大的沙盒框架,可用于轻松设计新颖的 RL 环境。MiniHack 是 RL 实验的一站式商店,环境范围从小房间到复杂的、程序生成的世界。NetHack 是最丰富的基于网格的视频游戏之一,通过利用 NetHack 的全套实体和环境动态,MiniHack 允许设计快速且易于使用的自定义 RL 测试平台。

论文链接:https://openreview.net/pdf?id=skFwlyefkWJ

4b46a532aff1c8fe8b3b91e7ea9873ad.png

如果你正在从事或关注 强化学习研究、实现与应用,欢迎加入“智源社区-强化学习-交流群”。在这里,你可以:

  • 学习前沿知识、求解疑难困惑

  • 分享经验心得、展示风貌才华

  • 参与专属活动、结识研究伙伴

扫描下方二维码,加入强化学习兴趣群。

1f02cb62690719eb98accec46f89d0b9.png

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值