《强化学习周刊》第62期:ICML2022强化学习论文推荐(2)、李飞飞:AI在实际社会中交互学习...

No.62

智源社区

强化学习组

 习

f2fa1e24d122bdb5bca45a198fa3efb8.png

研究

观点

资源

活动

周刊订阅

告诉大家一个好消息,《强化学习周刊》已经开启“订阅功能”,以后我们会向您自动推送最新版的《强化学习周刊》。订阅方法:

方式1:扫描下面二维码,进入《强化学习周刊》主页,选择“关注TA”。

af4698be36319930d425a89364f2cc69.png

方式2:点击本文下方的“阅读原文”,进入《强化学习周刊》Hub社区版,根据内附的详细订阅步骤,完成订阅。

7988d6513a85559556b4692350dd5b98.jpeg

a0b772a56fa69ae3d463e0cc06bc4d65.jpeg

7d7817e9b2350703050c69759e3f779a.jpeg

5e9b35cca8598ce9cda0383348e5c69f.jpeg

41b7ee944a3dca212e83fe7563927d8d.jpeg

关于周刊

强化学习作为人工智能领域研究热点之一,其在人工智能领域以及学科交叉研究中的突出表现,引起越来越多的研究人员对该领域的关注。为更好地服务相关研究人员及时了解强化学习领域的研究进展以及科研资讯,智源社区结合以前工作基础及读者反馈,在论文推荐基础之上新增科研资讯、学术讲座、强化学习教程、相关招聘等板块,撰写为第62期《强化学习周刊》以飨诸位。

周刊采用社区协作的模式产生,欢迎感兴趣的朋友们参与我们的工作,一起来推动强化学习社群的分享、学习和交流活动。社区将定期为推动强化学习社群建设表现优异的同学提供精美的奖品。可以扫描文末的二维码加入强化学习社区群。

本期贡献者:李明、刘青、小胖

1b26848977b12f040845204a802a7bc6.jpeg

5ab451db87e5a3bd0c46d52f1a87560e.jpeg

a188437dad066e2a684cd23189586a2d.jpeg

d6fd0dc4d52ff44ff5e203f162514456.jpeg

482f2f2399b25f902de3b7d3add1e05c.jpeg

论文推荐

强化学习已经成为人工智能研究领域的热点,其在各个应用领域中取得了瞩目的成就。《强化学习周刊》共分四个板块,论文推荐板块为读者梳理了ICML(2022)的另外9篇相关研究论文,基于后验抽样算法的强化学习、基于对比学习的离线元强化学习、可扩展多智能体强化学习的高性能仿真、通过引导式机会主义课程进行稳健的深度强化学习以及其他相关改进的强化学习算法研究;本期为大家推荐了来自瑞典查尔姆斯理工大学2022年博士后招聘职位(神经符号推理与强化学习);科研资讯:李飞飞最新提出:AI在实际社会中交互学习;本期教程推荐板块为大家推荐的是来自OpenAI的强化学习教程,本课程提供了各类强化学习算法的必读论文和练习题,集学习和实践为一体,适合大家边学边练习。

ICML (International Conference on Machine Learning) 国际机器学习大会已发展为由国际机器学习学会(IMLS)主办的年度机器学习国际顶级会议。ICML 2022 大会于 7 月 17 日 - 23 日在美国马里兰州巴尔的摩市以线上线下结合的方式举办。大会中有关强化学习研究的论文有数十篇。上期周刊已经为读者分享了9篇有关强化学习的论文(感兴趣读者可以翻阅强化学习周刊62期),本次周刊整理了另外9篇ICML2022中有关强化学习研究的论文,以供相关学者研究学习。

标题:A Self-Play Posterior Sampling Algorithm for Zero-Sum Markov Games(港科大: Wei Xiong | 零和马尔可夫对策的自玩后验抽样算法)了解详情

简介:现有的马尔可夫对策(MG)可证明有效算法的研究几乎完全建立在“面对不确定性的乐观主义”(OFU)原则之上。本文侧重于一种不同的后验抽样方法,该方法在许多强盗和强化学习环境中很受欢迎,但MG的研究仍处于探索阶段。具体而言,对于情节性两人零和MG,提出了一种新的后验采样算法,该算法采用广义函数近似。理论分析表明,后验抽样算法允许√ T对于多智能体解耦系数较低的问题,遗憾界是MG的一个新的复杂性度量,其中T表示事件数。当专门用于线性MG时,获得的遗憾界限与最先进的结果相匹配。据研究,本文是首个证明有效的MG后验采样算法,具有频率遗憾保证,丰富了MG的工具箱,并促进了后验采样的广泛适用性。

论文链接:https://arxiv.org/pdf/2210.01907.pdf

标题:Unsupervised Model-based Pre-training for Data-efficient Control from Pixels(根特大学: Pietro Mazzaglia | 基于无监督模型的像素数据有效控制预训练)了解详情

简介:从视觉感官数据控制人工智能体是一项艰巨的任务。强化学习(RL)算法可以在这方面取得成功,但需要在代理和环境之间进行大量交互。为了缓解这个问题,无监督RL建议采用自我监督的交互和学习,以便更快地适应未来的任务。然而,目前的无监督策略是否能提高泛化能力尚不清楚,尤其是在视觉控制环境中。本文设计了一种有效的无监督RL策略,用于数据高效的视觉控制。首先,研究表明,使用无监督RL收集的数据预先训练的世界模型可以促进适应未来任务。然后,分析了几种设计选择,以有效地适应,有效地重用代理预先训练的组件,并在想象中学习和规划,使用本文称之为Dyna MPC的混合规划器。通过结合大规模实证研究的结果建立了一种方法,该方法可以显著提高无监督RL基准的性能,需要20×更少的数据来匹配受监督方法的性能。该方法在Real Word RL基准测试中也表现出了良好的性能,同时表明了该方法适用于噪声环境。

论文链接:https://arxiv.org/pdf/2209.12016.pdf

标题:Transformers are Meta-Reinforcement Learners(微软公司: Luckeciano C. Melo|Transformers 是元强化学习者)了解详情

简介:近年来,Transformer 架构和变体在许多机器学习任务中取得了显著成功。这种成功本质上与处理长序列的能力和注意力机制中上下文相关权重的存在有关。本文认为这些能力适合元强化学习算法的核心作用。实际上,元 RL 智能体需要从一系列轨迹中推断出任务。此外,它需要一种快速的适应策略来适应新任务的策略——这可以使用自注意力机制来实现。本文提出了 TrMRL(元强化学习的转换器),这是一种使用转换器架构模拟记忆恢复机制的元 RL 智能体。它将工作记忆的最近过去联系起来,通过变换层递归地构建情景记忆。本文展示了自我注意计算了一个共识表示,该表示最小化了每一层的贝叶斯风险,并提供了有意义的特征来计算最佳动作。

论文链接:https://arxiv.org/pdf/2206.06614.pdf

标题:Robust Task Representations for Offline Meta-Reinforcement Learning via Contrastive Learning(北京大学: Haoqi Yuan|基于对比学习的离线元强化学习的鲁棒任务表示)了解详情

简介:离线元强化学习是一种实用的强化学习范式,可以从离线数据中学习以适应新任务。离线数据的分布由行为策略和任务共同决定。现有的离线元强化学习算法无法区分这些因素,使得任务表示对行为策略的变化不稳定。为了解决这个问题,本文提出了一个任务表示的对比学习框架,该框架对训练和测试中行为策略的分布不匹配具有鲁棒性。文中设计了一个双层编码器结构,使用交互信息最大化来形式化任务表示学习,推导出对比学习目标,并引入几种方法来近似负对的真实分布。对各种离线元强化学习基准的实验证明了此方法相对于先前方法的优势,特别是在对分布外行为策略的泛化方面。

论文链接:https://arxiv.org/pdf/2206.10442.pdf

标题:Offline Meta-Reinforcement Learning with Online Self-Supervision(加利福尼亚大学: Vitchyr H. Pong|基于在线自我监督的离线元强化学习)了解详情

简介:离线元强化学习消除了持续提供奖励监督的需要,因为在生成离线数据集时必须只提供一次奖励。除了离线 RL 的挑战之外,元 RL 中还存在一个独特的分布转变:智能体学习探索策略,但适应策略不适应学习探索策略收集的数据分布。与在线设置不同,适应和探索策略不能有效地相互适应,导致性能不佳。本文提出了一种混合离线元强化学习算法,它使用带有奖励的离线数据对自适应策略进行元训练,然后收集额外的无监督在线数据,没有任何真实奖励标签,以解决这个分布偏移问题。此方法使用离线数据来学习奖励函数的分布,然后对额外的在线数据进行采样以自我监督奖励标签。通过消除为在线体验提供奖励标签的需要,可以更实用地用于手动提供奖励监督的环境中。

论文链接:https://arxiv.org/pdf/2107.03974.pdf

标题:High Performance Simulation for Scalable Multi-Agent Reinforcement Learning(Improbable公司: Jordan Langham-Lopez|可扩展多智能体强化学习的高性能仿真)了解详情

简介:多智能体强化学习实验和开源训练环境通常规模有限,支持数十甚至数百个交互智能体。本文演示了 Vogue 的使用,这是一个高性能的基于智能体的模型 (ABM) 框架。Vogue 用作多智能体训练环境,支持成千上万的交互智能体,同时通过在 GPU 上运行环境和强化学习 (RL) 智能体来保持高训练吞吐量。这种规模的高性能多智能体环境有可能学习健壮和灵活的策略,用于 ABM 和复杂系统的模拟。作者通过两个新开发的大规模多智能体训练环境展示了训练性能。此外,本文表明这些环境可以在几分钟和几小时的时间尺度上训练共享 RL 策略。

论文链接:https://arxiv.org/pdf/2207.03945.pdf

标题:Stabilizing Off-Policy Deep Reinforcement Learning from Pixels(伦敦国王学院: Edoardo Cetin, Philip J. Ball|来自像素的稳定非策略深度强化学习)了解详情

简介:众所周知,来自像素观察的非策略强化学习 (RL) 是不稳定的。因此,许多成功的算法必须结合不同的特定领域实践和辅助损失,才能在复杂环境中学习有意义的行为。本文提供了新颖的分析,证明这些不稳定性是由使用卷积编码器和低幅度奖励执行时差学习引起的。这种新的视觉致命三元组会导致不稳定的训练和退化解的过早收敛,这种现象被称之为灾难性的自拟合。基于分析,本文提出了 A-LIX,这是一种为编码器的梯度提供自适应正则化的方法,可以使用双重目标明确地防止灾难性自过拟合的发生。通过应用A-LIX,在DeepMind Control和Atari 100k基准测试中的表现明显优于先前的最先进水平,且没有任何数据增强或辅助损失。

论文链接:https://arxiv.org/pdf/2207.00986.pdf

标题:Federated Reinforcement Learning: Linear Speedup Under Markovian Sampling(乔治亚理工学院: Sajad Khodadadian|联邦强化学习:马尔可夫采样下的线性加速)了解详情

简介:由于强化学习算法是众所周知的数据密集型算法,因此从环境中采样观测值的任务通常分为多个智能体。然而,从通信成本来看,将这些观察结果从智能体传送到中心位置可能会非常昂贵,并且还会损害每个智能体的本地行为策略的隐私。本文提出了一个联合强化学习框架,其中多个智能体协作学习一个全局模型,而不共享各自的数据和策略。每个智能体都维护模型的本地副本,并使用本地采样数据更新它。本文提出了关于策略TD、非策略TD和Q-learning的联合版本,并分析了它们的收敛性。对于所有这些算法,本文是第一个考虑马尔可夫噪声和多次局部更新的算法,并证明了相对于智能体数量的线性收敛加速。

论文链接:https://arxiv.org/pdf/2206.10185.pdf

标题:Robust Deep Reinforcement Learning through Bootstrapped Opportunistic Curriculum(华盛顿大学: Junlin Wu|通过引导式机会主义课程进行稳健的深度强化学习)了解详情

简介:尽管在深度强化学习方面取得了相当大的进展,但已经证明它极易受到状态观测的对抗性扰动的影响。然而,最近试图提高强化学习对抗鲁棒性的努力只能容忍非常小的扰动,并且随着扰动大小的增加仍然很脆弱。本文提出了引导式机会主义对手课程学习(BCL),一种新的灵活的对手课程学习框架,用于稳健的强化学习。本文的框架结合了两个理念:保守地引导每个课程阶段,从上一阶段的多次运行中获得最高质量的解决方案,以及机会主义地跳过课程。实验表明,提出的BCL框架能够显著提高学习策略对对抗扰动的鲁棒性。最大的改进是Pong,本文的框架对高达25/255的扰动具有鲁棒性;相比之下,现有的最佳方法只能容忍高达5/255的对抗性噪声。

论文链接:https://arxiv.org/pdf/2206.10057.pdf

8dd89d800dcfe306e528f146bc34c04f.jpeg

ca568780261bb033ab48cbf9e44f92b8.jpeg

06fda49641e1d84dee799f6b35600bd0.jpeg

901a2399a197145943d7c624ece08f64.jpeg

ef100b72a7d931c0728d6f39ea2e099f.jpeg

科研资讯

标题:斯坦福新作:AI在实际社会中交互学习了解详情

简介:PNAS收录了斯坦福大学一篇文章,此研究着眼于社会情境学习这一目前人工智能(AI)的重要挑战,并在视觉问答任务的实验中,性能提高了 112%。无论 AI 智能体有多少可用的数据,智能体在现实世界的部署中不可避免地会遇到以前没有见过的情况。通过从其他人那里获得新的信息来对新情况做出反应--社会情境学习--是人类发展的核心能力。斯坦福研究人员将社会环境下的 AI 任务--通过与人的社会互动来寻找新的信息的智能体--正规化为一个强化学习问题,智能体通过社会互动观察到的奖励来学习识别有意义和有信息的问题。研究人员将此框架表现为一个交互式的智能体,当它在一个大型的照片分享社交网络上扩大其视觉智能时,它学会了如何提出关于照片的自然语言问题。这项工作为持续改进AI智能体提供了机会,使其在开放的社会环境中更好地尊重规范。

资讯链接:https://www.pnas.org/doi/epdf/10.1073/pnas.2115730119

10eaa8e5e196dd89a32376d79a001f87.jpeg

4f3b82af7c681cf91b9d09c1b7d07690.jpeg

646a6d675e2e9538aff5a8ccc37fc555.jpeg

14599ee754a47c2d708a2735fa762f35.jpeg

eb707e23a7e9c20577ec450d8dc64ff4.jpeg

招聘信息

标题:瑞典查尔姆斯理工大学2022年招聘博士后(神经符号推理与强化学习)了解详情

简介:本项目研究了一种新的方法来综合多智能体系统中通过强化学习训练的高效通信方案。将符号方法与机器学习相结合。这是与芬兰阿尔托大学的Vikas Garg博士合作的项目,博士后将加入Moa Johansson活跃的跨学科研究小组,其中包括计算机科学家、数据科学家和一位政治科学家。Chalmers博士后研究的最初重点将是神经符号方法,以及多智能体强化学习工作原型的开发,推动交流中新概念的引入。该项目由WASP资助,旨在加强瑞典的人工智能研究,也为与其他大学的WASP资助的其他研究人员建立联系提供了许多机会。

职位要求及发展方向:良好的英语口头和书面沟通能力、对人工智能(机器学习和/或符号方法)感兴趣的博士后。瑞典语不是必修课,但查尔默斯提供瑞典语课程。该职位的资金用于两年的全职研究工作,博士后也可能在数据科学和人工智能领域进行一些教学。这将为未来的学术生涯提供一个获得宝贵教学经验的机会,就业可能会随着时间的推移而延长。并提供Chalmers在哥德堡的沿海城市提供一个培养和激励的工作环境。

招聘链接:http://www.boshihoujob.com/hwbsh/103962.html

62c976036929e5e0e171882b61c95cf1.jpeg

58bebb11f2512f86e4bb44d8ae1ef5cb.jpeg

8b420da09ca862a5a451358a8e7c68a7.jpeg

731748a92bc3fcdb4790f1c8753fb2ba.jpeg

510a6f87e0071e99a1d212c400ee5177.jpeg

教程推荐

标题:OpenAI 强化学习教程了解详情

简介:本教程是 OpenAI 推出的一份开源强化学习教程,从强化学习术语、各种算法和基本理论到详细代码实现一应俱全,并且提供了各类强化学习算法的必读论文和练习题,供学习者在理论和实践两个方向深入学习。教程中的算法实现被设计为尽可能简单,同时仍然相当好,并且彼此尽量保持一致,以暴露算法之间的基本相似之处。它们几乎是完全自包含的,它们之间几乎没有共享公共代码,因此感兴趣的人可以单独研究每个算法,而不必挖掘无尽的依赖链来查看某件事是如何完成的。这些实现是经过设计的,以便它们尽可能接近伪代码,以最大限度地减少理论和代码之间的差距。

教程链接:https://spinningup.openai.com/en/latest/index.html

2efc6760dbb1f84ee2ac61bf4100585b.jpeg

如果你正在从事或关注 强化学习研究、实现与应用,欢迎加入“智源社区-强化学习-交流群”。在这里,你可以:

  • 学习前沿知识、求解疑难困惑

  • 分享经验心得、展示风貌才华

  • 参与专属活动、结识研究伙伴

扫描下方二维码,加入强化学习兴趣群。

89288b7bc52833c51861f411d415ca3d.png

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值