《强化学习周刊》第64期：Neurips2022强化学习论文推荐（2）、英伟达提出树搜索策略梯度...

智源社区

于 2022-10-24 13:11:27 发布

阅读量854

点赞数

文章标签：算法人工智能大数据 python 机器学习

原文链接：https://mp.weixin.qq.com/s?__biz=MzU5ODg0MTAwMw==&mid=2247530815&idx=2&sn=13e4f65bc1909c7ed9164cbbe0b0d029&chksm=febc3afbc9cbb3edf071f4cf996c4d9f78c8d03b04d0acd097835942c2f05b5f311f360a3d71&scene=126&&sessionid=0

版权

《强化学习周刊》分享了最新强化学习领域的研究论文、科研资讯、教程和招聘信息。亮点包括：树搜索策略梯度提升RL性能、多智能体动态算法配置、模拟医生推理的自动诊断系统、面向自动竞价的可持续在线RL等。此外，还推荐了开源强化学习教程和悉尼科技大学的全奖博士生招生信息。

摘要由CSDN通过智能技术生成

No.64

智源社区

强化学习组

强

化

学

习

研究

观点

资源

活动

周刊订阅

告诉大家一个好消息，《强化学习周刊》已经开启“订阅功能”，以后我们会向您自动推送最新版的《强化学习周刊》。订阅方法：

方式1：扫描下面二维码，进入《强化学习周刊》主页，选择“关注TA”。

方式2：点击本文下方的“阅读原文”，进入《强化学习周刊》Hub社区版，根据内附的详细订阅步骤，完成订阅。

关于周刊

强化学习作为人工智能领域研究热点之一，其在人工智能领域以及学科交叉研究中的突出表现，引起越来越多的研究人员对该领域的关注。为更好地服务相关研究人员及时了解强化学习领域的研究进展以及科研资讯，智源社区结合以前工作基础及读者反馈，在论文推荐基础之上新增科研资讯、学术讲座、强化学习教程、相关招聘等板块，撰写为第64期《强化学习周刊》以飨诸位。

周刊采用社区协作的模式产生，欢迎感兴趣的朋友们参与我们的工作，一起来推动强化学习社群的分享、学习和交流活动。社区将定期为推动强化学习社群建设表现优异的同学提供精美的奖品。可以扫描文末的二维码加入强化学习社区群。

本期贡献者：李明、刘青、小胖

论文推荐

强化学习已经成为人工智能研究领域的热点，其在各个应用领域中取得了瞩目的成就。《强化学习周刊》共分四个板块，论文推荐板块继续为读者梳理Nips2022的9篇强化学习相关研究论文，其中涉及到多智能体动态算法配置、自动诊断系统、自动竞价的可持续在线强化学习、因果驱动的层次强化学习框架、无监督强化学习的惊喜组合、对象类别感知强化学习等；科研资讯为大家分享来自英伟达提出的树搜索策略梯度，该算法分布式PPO，提升5倍性能！；招聘版块为大家推荐来自悉尼科技大学-澳大利亚人工智能研究院全奖博士生信息，有兴趣的同学可以查看下面链接；本次教程推荐板块为大家分享莫斯科大学和Yandex合作的开源强化学习教程，可以在本地或Google Colab上轻松的查看，并运行上面的代码。

NeurIPS2022(Thirty-sixth Conference on Neural Information Processing Systems,第三十六届神经信息处理系统会议)是一年一度的国际人工智能顶会，今年将在11月28日至12月9日举办，第一周在新奥尔良会议中心举行线下会议，第二周举行虚拟会议。本次周刊再为各位读者分享另外9篇强化学习研究论文。

标题：Sample-Then-Optimize Batch Neural Thompson Sampling（新加坡国立大学:Zhongxiang Dai | 采样然后优化批量神经汤普森采样）了解详情

简介：贝叶斯优化（Bayesian optimization，BO）是一种流行的黑箱优化方法，它使用高斯过程（Gaussian process，GP）作为代理来建模其目标函数。由于相关局限性，BO在一些问题上表现不佳，例如具有分类、高维或图像输入的问题。为此，现有研究使用了高度表达的神经网络（NNs）作为替代模型，并使用神经切线核（NTK）理论推导了理论保证。然而，此类研究受到反转超大参数矩阵要求的限制以及顺序（而非批量）设置的限制。为此，本文引入了两种基于汤普森采样（TS）策略的算法，分别名为采样然后优化批处理神经TS（STO-BNTS）和STO-BNTS-Learline。为了选择一个输入查询，只需要训练一个NN（对应线性模型），然后通过最大化训练的NN（相应线性模型）来选择查询，该NN是从GP后验中等效采样的，NTK是核函数。因此，该算法避开了反转大参数矩阵的需要，但仍保持TS策略的有效性。并推导了该算法在批量评估时的后悔上界，并使用批处理BO和NTK的见解来证明它们在某些条件下是渐近无后悔的。最后，通过实际的AutoML和强化学习实验验证了该方法的实证有效性。

论文链接：https://arxiv.org/pdf/2210.06850.pdf

标题：Multi-agent Dynamic Algorithm Configuration（计算机软件新技术国家重点实验室(南京大学):Chao Qian | 多智能体动态算法配置）了解详情

简介：自动算法配置将用户从繁琐、反复试验和错误调整任务中解脱出来。现有算法配置优化范例是动态算法配置（DAC），其中智能体通过强化学习（RL）跨实例学习动态配置策略。然而，在许多复杂算法中，可能存在不同类型的配置超参数，这种异构性可能给使用单个智能体RL策略的经典DAC带来困难。为此，并提出了多智能体DAC（MA-DAC），即一个智能体为一种配置超参数工作。MA-DAC将具有多种超参数的复杂算法的动态配置作为上下文多智能体马尔可夫决策过程，并通过协作多智能体RL（MARL）算法进行求解。为了举例说明，将MA-DAC应用于多目标优化问题的著名优化算法。实验结果表明，与其他基于启发式规则、多武装盗贼和单智能体RL的配置优化方法相比，MA-DAC不仅可以获得更好的性能，而且可以推广到不同的问题类别。此外，还发布了本文中的环境作为测试MARL算法的基准，以期促进MARL的应用。

论文链接：https://arxiv.org/pdf/2210.06835.pdf

标题：Towards Trustworthy Automatic Diagnosis Systems by Emulating Doctors' Reasoning with Deep Reinforcement Learning（ Mila-Quebec人工智能研究所: Arsene Fansi Tchango|通过深度强化学习模拟医生的推理，走向值得信赖的自动诊断系统）了解详情

简介：目前机器学习文献中提出的大多数医学证据获取和诊断过程的自动化工作仅专注于提高患者病理的预测准确性。此文认为这一目标不足以确保医生接受此类系统。在与患者的最初互动中，医生不仅专注于识别患者的病理，还会生成鉴别诊断（以可能疾病的简短列表的形式），因为从患者那里收集的医学证据通常不足以确定最终诊断。而且，在可能将其排除在鉴别诊断之外之前医生会明确探索严重的病理。最后，为了让医生相信系统的建议，他们需要了解收集到的证据是如何导致预测疾病的。因此系统与患者之间的交互需要模仿医生的推理。综上，此文建议使用深度强化学习框架对证据获取和自动诊断任务进行建模，该框架考虑了医生推理的三个基本方面，即用探索-确认方法生成鉴别诊断，同时优先考虑严重的病理。文中提出了基于这三个方面评估交互质量的指标，并且文中的方法执行优于现有的模型，同时保持竞争性病理预测的准确性。

论文链接：https://arxiv.org/pdf/2210.07198.pdf

标题：Sustainable Online Reinforcement Learning for Auto-bidding（阿里巴巴: Zhiyu Mou|面向自动竞价的可持续在线强化学习）了解详情

简介：面对现实广告系统(RAS)中复杂且多变的竞价环境，最先进的自动竞价策略通常利用强化学习(RL)算法代表广告商生成实时竞价。出于安全考虑，人们认为RL训练过程只能在基于RAS生成的历史数据构建的离线虚拟广告系统(VAS)中进行。本文认为VAS和RAS之间存在着显著的差距，导致RL训练过程存在线上与线下不一致的问题(IBOO)。本文首先对IBOO进行了正式的定义，并系统地分析了其成因和影响。然后，为了避免IBOO，研究者提出了一个可持续的在线RL (SORL)框架，通过直接与RAS交互来训练自动竞价策略，而不是在VAS中学习。文中还开发了一种方差抑制保守Q-learning(V-CQL)方法，利用收集到的数据有效、稳定地学习自动竞价策略。

论文链接：https://arxiv.org/pdf/2210.07006.pdf

标题：Causality-driven Hierarchical Structure Discovery for Reinforcement Learning（中国科学院: Shaohui Peng|强化学习的因果驱动层次结构发现）了解详情

简介：分层强化学习(HRL)在高质量层次结构(如子目标或选项)的指导下，有效地提高了智能体在稀疏奖励任务中的探索效率。然而，如何自动发现高质量的层次结构仍然是一个巨大的挑战。以往的HRL方法利用随机驱动的探索范式，由于探索效率低，难以发现复杂环境中的层次结构。为了解决这一问题，此文提出了CDHRL，一种因果驱动的层次强化学习框架，利用因果驱动的发现而不是随机驱动的探索，在复杂环境中有效地构建高质量的层次结构。关键见解是，环境变量之间的因果关系自然适合建模可达子目标及其依赖关系，可以完美指导构建高质量的层次结构。在2D-Minecraft和Eden这两个复杂环境中的结果表明，CDHRL使用因果驱动范式显著提高了探索效率。

论文链接：https://arxiv.org/pdf/2210.06964.pdf

标题：Model-Based Offline Reinforcement Learning with Pessimism-Modulated Dynamics Belief（华为诺亚方舟实验室: Kaiyang Guo|基于模型的具有悲观调节动态信念的离线强化学习）了解详情

简介：基于模型的离线强化学习(RL)旨在利用以前收集的静态数据集和动态模型，找到高回报的策略。动态模型的泛化能力在重用静态数据集的同时，如果利用得当，有望促进策略学习。由于动态和奖励在MDP背景下是本质不同的因素，通过奖励惩罚来表征动态不确定性的影响可能会在模型利用和风险规避之间产生意想不到的权衡。本文相反地在动态上保持信念分布，并通过信念中的有偏见抽样来评估/优化策略策。基于离线RL的交替马尔可夫博弈公式推导了偏向悲观的抽样程序。此文正式地表明，偏差抽样自然地诱导了一个带有策略依赖重加权因子的更新动态信念，称为悲观调制动态信念。为了改进策略，此文设计了一种迭代正则化策略优化算法，保证了在一定条件下的单调改进。为了使其具有实用性，本文进一步设计了一个离线RL算法来近似求解。

论文链接：https://arxiv.org/pdf/2210.06692.pdf

标题：A Mixture of Surprises for Unsupervised Reinforcement Learning（清华大学: Andrew Zhao|无监督强化学习的惊喜组合）了解详情

简介：无监督强化学习旨在以无奖励的方式学习通用策略，以快速适应下游任务。大多数现有方法都建议提供基于惊喜的内在奖励。最大化或最小化惊喜会促使智能体探索或控制其环境。然而，这两种策略都依赖于一个强有力的假设：环境动态的熵要么高要么低。这个假设在现实世界的场景中可能并不总是成立，因为环境动态的熵可能是未知的。本文提出了一种新颖而简单的策略组合来解决这一问题。具体来说，训练一个混合分量，其目标是最大化惊喜，另一个目标是最小化惊喜。因此，本文的方法不对环境动态的熵做出假设。此方法称为无监督强化学习的 Mixture Of SurpriseS (MOSS)。实验结果表明，本文的方法在 URLB 基准测试中实现了最先进的性能，优于以前基于惊喜最大化的目标。

论文链接：https://arxiv.org/pdf/2210.06702.pdf

标题：Reinforcement Learning with Automated Auxiliary Loss Search（上海交通大学: Tairan He|使用自动辅助损失搜索的强化学习）了解详情

简介：良好的状态表示对于解决复杂的强化学习 (RL) 挑战至关重要。最近的许多工作都集中在设计用于学习信息表示的辅助损失。不幸的是，这些手工制作的目标在很大程度上依赖于专家知识，并且可能不是最理想的。本文提出了一种学习辅助损失函数更好表示的原则性通用方法，称为自动辅助损失搜索（A2LS），它可以自动搜索 RL 中表现最好的辅助损失函数。具体来说，基于收集到的轨迹数据，作者定义了一个大小为 7.5×10^{20} 的通用辅助损失空间，并使用有效的进化搜索策略探索该空间。实验结果表明，发现的辅助损失（即 A2-winner）显着提高了在高维（图像）和低维（向量）未见任务上的性能，效率更高，显示出对不同设置甚至不同基准域的良好泛化能力。本文进行统计分析以揭示辅助损失模式与 RL 性能之间的关系。

论文链接：https://arxiv.org/pdf/2210.06041.pdf

标题：Object-Category Aware Reinforcement Learning（中国科学技术大学: Qi Yi|对象类别感知强化学习）了解详情

简介：与标准强化学习相比，面向对象强化学习（OORL）是提高样本效率和泛化能力的有效途径。最近的工作试图在没有附加特征工程的情况下解决OORL任务，主要集中在学习对象表示，然后根据这些对象表示通过推理解决任务。然而，这些作品都没有试图明确建模同一类别的不同对象实例之间的固有相似性。同一类别的对象应具有相似的功能；因此，类别是对象最关键的属性。本文提出了一个名为对象类别感知强化学习（OCARL）的新框架，它利用对象的类别信息来促进感知和推理。OCARL由三部分组成：（1）类别感知无监督对象发现（UOD），它发现对象及其对应的类别；（2）对象类别感知感知，对类别信息进行编码，同时对（1）的不完整性具有鲁棒性；（3）以对象为中心的模块化推理，在基于对象进行推理时，采用多个独立的、对象类别特定的网络。

论文链接：https://arxiv.org/pdf/2210.07802.pdf

科研资讯

标题：提升5倍性能！英伟达提出树搜索策略梯度了解详情

简介：NVIDIA再出新作，首次将树状搜索整合到策略梯度的方法中。策略梯度方法被广泛用于学习控制策略。它们可以很容易地分布式执行，并在许多领域达到最先进的结果。然而，由于它们累加在整个轨迹上的梯度，它们表现出较大的估计方差，并且存在高样本复杂性。在另一个极端，规划方法，如树形搜索，使用考虑未来展望的单步过渡来优化策略。这些方法主要被考虑用于基于价值的算法。基于规划的算法需要一个前向模型，每一步的计算量都很大，但采样效率更高。本文研究者引入了SoftTreeMax，传统上，梯度是针对单一的状态-动作对进行计算的。相反，此方法基于树的策略结构在每个环境步骤中利用了叶节点的所有梯度。这使算法能够将梯度的方差减少三个数量级，并且与标准策略梯度相比，拥有更好的样本复杂性。在Atari上，SoftTreeMax与分布式PPO相比，在更快的运行时间内展示了高达5倍的性能，性能提高了5倍。

资讯链接：https://arxiv.org/pdf/2209.13966.pdf

招聘信息

标题：悉尼科技大学-澳大利亚人工智能研究院招收全奖博士生了解详情

简介：悉尼科技大学-澳大利亚人工智能研究院（The Australian Artificial Intelligence Institute，简称AAII)，是澳大利亚最大的人工智能研究中心之一及全球排名前十的人工智能研究中心。目前，AAII 研究院常晓军教授（Prof Xiaojun Chang）和杨易教授 (Prof Yi Yang)领导的ReLER实验室招收学生从事人工智能方向的博士研究生若干名，提供全额奖学金。

招聘链接：http://reler.net/

教程推荐

标题：开源强化学习教程——Practical_RL了解详情

简介：本教程是莫斯科大学和Yandex合作的开源强化学习教程，以jupyter文档的形式，将原理与代码教学有机结合起来，你可以在本地或Google Colab上轻松的查看，并运行上面的代码。对于所有未详细介绍的材料，都有指向更多信息和相关材料的链接（D.Silver/Sutton/blogs/whatever），可供感兴趣的人深入挖掘学习。

教程链接：https://github.com/yandexdataschool/Practical_RL