《强化学习周刊》第64期:Neurips2022强化学习论文推荐(2)、英伟达提出树搜索策略梯度...

《强化学习周刊》分享了最新强化学习领域的研究论文、科研资讯、教程和招聘信息。亮点包括:树搜索策略梯度提升RL性能、多智能体动态算法配置、模拟医生推理的自动诊断系统、面向自动竞价的可持续在线RL等。此外,还推荐了开源强化学习教程和悉尼科技大学的全奖博士生招生信息。
摘要由CSDN通过智能技术生成

No.64

智源社区

强化学习组

 习

da91fa065616ebb33ebbc9c0b0c02555.png

研究

观点

资源

活动

周刊订阅

告诉大家一个好消息,《强化学习周刊》已经开启“订阅功能”,以后我们会向您自动推送最新版的《强化学习周刊》。订阅方法:

方式1:扫描下面二维码,进入《强化学习周刊》主页,选择“关注TA”。

ad151ea77c1bccffb950a20fc3cefdfe.png

方式2:点击本文下方的“阅读原文”,进入《强化学习周刊》Hub社区版,根据内附的详细订阅步骤,完成订阅。

d9261741d83811f10d872b4b4017f9e2.jpeg

61caa6e9e85423571e6d057a0eec39ab.jpeg

76d41a4376a0cb201d7c9987c1c1fa87.jpeg

6fe49300ad13d8507001be211cdc0528.jpeg

97384706d9b1fb159ae33369b22adca5.jpeg

关于周刊

强化学习作为人工智能领域研究热点之一,其在人工智能领域以及学科交叉研究中的突出表现,引起越来越多的研究人员对该领域的关注。为更好地服务相关研究人员及时了解强化学习领域的研究进展以及科研资讯,智源社区结合以前工作基础及读者反馈,在论文推荐基础之上新增科研资讯、学术讲座、强化学习教程、相关招聘等板块,撰写为第64期《强化学习周刊》以飨诸位。

周刊采用社区协作的模式产生,欢迎感兴趣的朋友们参与我们的工作,一起来推动强化学习社群的分享、学习和交流活动。社区将定期为推动强化学习社群建设表现优异的同学提供精美的奖品。可以扫描文末的二维码加入强化学习社区群。

本期贡献者:李明、刘青、小胖

9df1d865900346011c4d23621d52dcd9.jpeg

16f7aee0d543c77a7c8e64735144f135.jpeg

61e205314bded08511f947ce72eb338f.jpeg

bd7480bf5283a26d8c76ee34f11ef08f.jpeg

6ed99e8a437b9b0d3e76a1732430d0a0.jpeg

论文推荐

强化学习已经成为人工智能研究领域的热点,其在各个应用领域中取得了瞩目的成就。《强化学习周刊》共分四个板块,论文推荐板块继续为读者梳理Nips2022的9篇强化学习相关研究论文,其中涉及到多智能体动态算法配置、自动诊断系统、自动竞价的可持续在线强化学习、因果驱动的层次强化学习框架、无监督强化学习的惊喜组合、对象类别感知强化学习等;科研资讯为大家分享来自英伟达提出的树搜索策略梯度,该算法分布式PPO,提升5倍性能!;招聘版块为大家推荐来自悉尼科技大学-澳大利亚人工智能研究院全奖博士生信息,有兴趣的同学可以查看下面链接;本次教程推荐板块为大家分享莫斯科大学和Yandex合作的开源强化学习教程,可以在本地或Google Colab上轻松的查看,并运行上面的代码。

NeurIPS2022(Thirty-sixth Conference on Neural Information Processing Systems,第三十六届神经信息处理系统会议)是一年一度的国际人工智能顶会,今年将在11月28日至12月9日举办,第一周在新奥尔良会议中心举行线下会议,第二周举行虚拟会议。本次周刊再为各位读者分享另外9篇强化学习研究论文。

标题:Sample-Then-Optimize Batch Neural Thompson Sampling(新加坡国立大学:Zhongxiang Dai | 采样然后优化批量神经汤普森采样)了解详情

简介:贝叶斯优化(Bayesian optimization,BO)是一种流行的黑箱优化方法,它使用高斯过程(Gaussian process,GP)作为代理来建模其目标函数。由于相关局限性,BO在一些问题上表现不佳,例如具有分类、高维或图像输入的问题。为此,现有研究使用了高度表达的神经网络(NNs)作为替代模型,并使用神经切线核(NTK)理论推导了理论保证。然而,此类研究受到反转超大参数矩阵要求的限制以及顺序(而非批量)设置的限制。为此,本文引入了两种基于汤普森采样(TS)策略的算法,分别名为采样然后优化批处理神经TS(STO-BNTS)和STO-BNTS-Learline。为了选择一个输入查询,只需要训练一个NN(对应线性模型),然后通过最大化训练的NN(相应线性模型)来选择查询,该NN是从GP后验中等效采样的,NTK是核函数。因此,该算法避开了反转大参数矩阵的需要,但仍保持TS策略的有效性。并推导了该算法在批量评估时的后悔上界,并使用批处理BO和NTK的见解来证明它们在某些条件下是渐近无后悔的。最后,通过实际的AutoML和强化学习实验验证了该方法的实证有效性。

论文链接:https://arxiv.org/pdf/2210.06850.pdf

标题:Multi-agent Dynamic Algorithm Configuration(计算机软件新技术国家重点实验室(南京大学):Chao Qian | 多智能体动态算法配置)了解详情

简介:自动算法配置将用户从繁琐、反复试验和错误调整任务中解脱出来。现有算法配置优化范例是动态算法配置(DAC),其中智能体通过强化学习(RL)跨实例学习动态配置策略。然而,在许多复杂算法中,可能存在不同类型的配置超参数,这种异构性可能给使用单个智能体RL策略的经典DAC带来困难。为此,并提出了多智能体DAC(MA-DAC),即一个智能体为一种配置超参数工作。MA-DAC将具有多种超参数的复杂算法的动态配置作为上下文多智能体马尔可夫决策过程,并通过协作多智能体RL(MARL)算法进行求解。为了举例说明,将MA-DAC应用于多目标优化问题的著名优化算法。实验结果表明,与其他基于启发式规则、多武装盗贼和单智能体RL的配置优化方法相比,MA-DAC不仅可以获得更好的性能,而且可以推广到不同的问题类别。此外,还发布了本文中的环境作为测试MARL算法的基准,以期促进MARL的应用。

论文链接:https://arxiv.org/pdf/2210.06835.pdf

标题:Towards Trustworthy Automatic Diagnosis Systems by Emulating Doctors' Reasoning with Deep Reinforcement Learning( Mila-Quebec人工智能研究所: Arsene Fansi Tchango|通过深度强化学习模拟医生的推理,走向值得信赖的自动诊断系统)了解详情

简介:目前机器学习文献中提出的大多数医学证据获取和诊断过程的自动化工作仅专注于提高患者病理的预测准确性。此文认为这一目标不足以确保医生接受此类系统。在与患者的最初互动中,医生不仅专注于识别患者的病理,还会生成鉴别诊断(以可能疾病的简短列表的形式),因为从患者那里收集的医学证据通常不足以确定最终诊断。而且,在可能将其排除在鉴别诊断之外之前医生会明确探索严重的病理。最后,为了让医生相信系统的建议,他们需要了解收集到的证据是如何导致预测疾病的。因此系统与患者之间的交互需要模仿医生的推理。综上,此文建议使用深度强化学习框架对证据获取和自动诊断任务进行建模,该框架考虑了医生推理的三个基本方面,即用探索-确认方法生成鉴别诊断,同时优先考虑严重的病理。文中提出了基于这三个方面评估交互质量的指标,并且文中的方法执行优于现有的模型,同时保持竞争性病理预测的准确性。

论文链接:https://arxiv.org/pdf/2210.07198.pdf

标题:Sustainable Online Reinforcement Learning for Auto-bidding(阿里巴巴: Zhiyu Mou|面向自动竞价的可持续在线强化学习)了解详情

简介:面对现实广告系统(RAS)中复杂且多变的竞价环境,最先进的自动竞价策略通常利用强化学习(RL)算法代表广告商生成实时竞价。出于安全考虑,人们认为RL训练过程只能在基于RAS生成的历史数据构建的离线虚拟广告系统(VAS)中进行。本文认为VAS和RAS之间存在着显著的差距,导致RL训练过程存在线上与线下不一致的问题(IBOO)。本文首先对IBOO进行了正式的定义,并系统地分析了其成因和影响。然后,为了避免IBOO,研究者提出了一个可持续的在线RL (SORL)框架,通过直接与RAS交互来训练自动竞价策略,而不是在VAS中学习。文中还开发了一种方差抑制保守Q-learning(V-CQL)方法,利用收集到的数据有效、稳定地学习自动竞价策略。

论文链接:https://arxiv.org/pdf/2210.07006.pdf

标题:Causality-driven Hierarchical Structure Discovery for Reinforcement Learning(中国科学院: Shaohui Peng|强化学习的因果驱动层次结构发现)了解详情

简介:分层强化学习(HRL)在高质量层次结构(如子目标或选项)的指导下,有效地提高了智能体在稀疏奖励任务中的探索效率。然而,如何自动发现高质量的层次结构仍然是一个巨大的挑战。以往的HRL方法利用随机驱动的探索范式,由于探索效率低,难以发现复杂环境中的层次结构。为了解决这一问题,此文提出了CDHRL,一种因果驱动的层次强化学习框架,利用因果驱动的发现而不是随机驱动的探索,在复杂环境中有效地构建高质量的层次结构。关键见解是,环境变量之间的因果关系自然适合建模可达子目标及其依赖关系,可以完美指导构建高质量的层次结构。在2D-Minecraft和Eden这两个复杂环境中的结果表明,CDHRL使用因果驱动范式显著提高了探索效率。

论文链接:https://arxiv.org/pdf/2210.06964.pdf

标题:Model-Based Offline Reinforcement Learning with Pessimism-Modulated Dynamics Belief(华为诺亚方舟实验室: Kaiyang Guo|基于模型的具有悲观调节动态信念的离线强化学习)了解详情

简介:基于模型的离线强化学习(RL)旨在利用以前收集的静态数据集和动态模型,找到高回报的策略。动态模型的泛化能力在重用静态数据集的同时,如果利用得当,有望促进策略学习。由于动态和奖励在MDP背景下是本质不同的因素,通过奖励惩罚来表征动态不确定性的影响可能会在模型利用和风险规避之间产生意想不到的权衡。本文相反地在动态上保持信念分布,并通过信念中的有偏见抽样来评估/优化策略策。基于离线RL的交替马尔可夫博弈公式推导了偏向悲观的抽样程序。此文正式地表明,偏差抽样自然地诱导了一个带有策略依赖重加权因子的更新动态信念,称为悲观调制动态信念。为了改进策略,此文设计了一种迭代正则化策略优化算法,保证了在一定条件下的单调改进。为了使其具有实用性,本文进一步设计了一个离线RL算法来近似求解。

论文链接:https://arxiv.org/pdf/2210.06692.pdf

标题:A Mixture of Surprises for Unsupervised Reinforcement Learning(清华大学: Andrew Zhao|无监督强化学习的惊喜组合)了解详情

简介:无监督强化学习旨在以无奖励的方式学习通用策略,以快速适应下游任务。大多数现有方法都建议提供基于惊喜的内在奖励。最大化或最小化惊喜会促使智能体探索或控制其环境。然而,这两种策略都依赖于一个强有力的假设:环境动态的熵要么高要么低。这个假设在现实世界的场景中可能并不总是成立,因为环境动态的熵可能是未知的。本文提出了一种新颖而简单的策略组合来解决这一问题。具体来说,训练一个混合分量,其目标是最大化惊喜,另一个目标是最小化惊喜。因此,本文的方法不对环境动态的熵做出假设。此方法称为无监督强化学习的 Mixture Of SurpriseS (MOSS)。实验结果表明,本文的方法在 URLB 基准测试中实现了最先进的性能,优于以前基于惊喜最大化的目标。

论文链接:https://arxiv.org/pdf/2210.06702.pdf

标题:Reinforcement Learning with Automated Auxiliary Loss Search(上海交通大学: Tairan He|使用自动辅助损失搜索的强化学习)了解详情

简介:良好的状态表示对于解决复杂的强化学习 (RL) 挑战至关重要。最近的许多工作都集中在设计用于学习信息表示的辅助损失。不幸的是,这些手工制作的目标在很大程度上依赖于专家知识,并且可能不是最理想的。本文提出了一种学习辅助损失函数更好表示的原则性通用方法,称为自动辅助损失搜索(A2LS),它可以自动搜索 RL 中表现最好的辅助损失函数。具体来说,基于收集到的轨迹数据,作者定义了一个大小为 7.5×10^{20} 的通用辅助损失空间,并使用有效的进化搜索策略探索该空间。实验结果表明,发现的辅助损失(即 A2-winner)显着提高了在高维(图像)和低维(向量)未见任务上的性能,效率更高,显示出对不同设置甚至不同基准域的良好泛化能力。本文进行统计分析以揭示辅助损失模式与 RL 性能之间的关系。

论文链接:https://arxiv.org/pdf/2210.06041.pdf

标题:Object-Category Aware Reinforcement Learning(中国科学技术大学: Qi Yi|对象类别感知强化学习)了解详情

简介:与标准强化学习相比,面向对象强化学习(OORL)是提高样本效率和泛化能力的有效途径。最近的工作试图在没有附加特征工程的情况下解决OORL任务,主要集中在学习对象表示,然后根据这些对象表示通过推理解决任务。然而,这些作品都没有试图明确建模同一类别的不同对象实例之间的固有相似性。同一类别的对象应具有相似的功能;因此,类别是对象最关键的属性。本文提出了一个名为对象类别感知强化学习(OCARL)的新框架,它利用对象的类别信息来促进感知和推理。OCARL由三部分组成:(1)类别感知无监督对象发现(UOD),它发现对象及其对应的类别;(2) 对象类别感知感知,对类别信息进行编码,同时对(1)的不完整性具有鲁棒性;(3) 以对象为中心的模块化推理,在基于对象进行推理时,采用多个独立的、对象类别特定的网络。

论文链接:https://arxiv.org/pdf/2210.07802.pdf

b34f230f775fd6399fbe8f730170ddd8.jpeg

30b65f74be7e208d20cc855d7f777cb7.jpeg

866d48e9d0f63cde58dc4cf28055dc61.jpeg

7088672c16c11caad73f9485eb06c851.jpeg

8098b43d146a25f293cfc9bd5096219a.jpeg

科研资讯

标题:提升5倍性能!英伟达提出树搜索策略梯度了解详情

简介:NVIDIA再出新作,首次将树状搜索整合到策略梯度的方法中。策略梯度方法被广泛用于学习控制策略。它们可以很容易地分布式执行,并在许多领域达到最先进的结果。然而,由于它们累加在整个轨迹上的梯度,它们表现出较大的估计方差,并且存在高样本复杂性。在另一个极端,规划方法,如树形搜索,使用考虑未来展望的单步过渡来优化策略。这些方法主要被考虑用于基于价值的算法。基于规划的算法需要一个前向模型,每一步的计算量都很大,但采样效率更高。本文研究者引入了SoftTreeMax,传统上,梯度是针对单一的状态-动作对进行计算的。相反,此方法基于树的策略结构在每个环境步骤中利用了叶节点的所有梯度。这使算法能够将梯度的方差减少三个数量级,并且与标准策略梯度相比,拥有更好的样本复杂性。在Atari上,SoftTreeMax与分布式PPO相比,在更快的运行时间内展示了高达5倍的性能 ,性能提高了5倍。

资讯链接:https://arxiv.org/pdf/2209.13966.pdf

748142dca5eb66cad3d3935b59c0a803.jpeg

d0a96a57501f750086ccc477368713ea.jpeg

3f07bceae2688f685f5aee199cac7b7c.jpeg

bc1a4531ef2b57b060eaa69154186e97.jpeg

72c97b08a1566031773ba49a65faab6a.jpeg

招聘信息

标题:悉尼科技大学-澳大利亚人工智能研究院招收全奖博士生了解详情

简介:悉尼科技大学-澳大利亚人工智能研究院(The Australian Artificial Intelligence Institute,简称AAII),是澳大利亚最大的人工智能研究中心之一及全球排名前十的人工智能研究中心。目前,AAII 研究院常晓军教授(Prof Xiaojun Chang)和杨易教授 (Prof Yi Yang)领导的ReLER实验室招收学生从事人工智能方向的博士研究生若干名,提供全额奖学金。

招聘链接:http://reler.net/

d9c8d4a532269468a10456dd6e871dd9.jpeg

96ea7bcb00996ce8f3cc6c458dd2ed4d.jpeg

722a16d936b78c85286534a4d8d01f6a.jpeg

f43f028f4c2e851aa363657961c8fb1a.jpeg

8be483735c02c38cfbc16d9231068d0b.jpeg

教程推荐

标题:开源强化学习教程——Practical_RL了解详情

简介:本教程是莫斯科大学和Yandex合作的开源强化学习教程,以jupyter文档的形式,将原理与代码教学有机结合起来,你可以在本地或Google Colab上轻松的查看,并运行上面的代码。对于所有未详细介绍的材料,都有指向更多信息和相关材料的链接(D.Silver/Sutton/blogs/whatever),可供感兴趣的人深入挖掘学习。

教程链接:https://github.com/yandexdataschool/Practical_RL

a038112e0de1e0fa14781e8390b6cd2d.jpeg

如果你正在从事或关注 强化学习研究、实现与应用,欢迎加入“智源社区-强化学习-交流群”。在这里,你可以:

  • 学习前沿知识、求解疑难困惑

  • 分享经验心得、展示风貌才华

  • 参与专属活动、结识研究伙伴

扫描下方二维码,加入强化学习兴趣群。

6ee238f35b00b1da1f5dfb6392252c8b.png

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值