ICLR 2022 主题论文推荐——Reinforcement Learning

在这里插入图片描述

ICLR,即国际表征学习大会,由位列深度学习三大巨头之二的 Yoshua Bengio 和 Yann LeCun 牵头创办,是公认的深度学习领域国际顶级会议之一,关注有关深度学习各个方面的前沿研究,在人工智能、统计和数据科学领域以及机器视觉、语音识别、文本理解等重要应用领域中发布了众多极其有影响力的论文。
以下论文供大家参考学习:

1.Learning State Representations via Retracing in Reinforcement Learning
本文引入了循环一致性世界模型(CCWM),这是一种在现有的基于模型的强化学习框架下通过回溯实现的学习的具体实例化。此外,研究者还提出了一种新的适应性“截断”机制,以抵消“不可逆”过渡带来的负面影响,从而通过回溯学习可以最大程度地有效。通过对连续控制基准的广泛实证研究,研究者证明CCWM在样品效率和渐近性能方面实现了最先进的性能。
PDF下载链接:https://www.aminer.cn/pub/619eff0a5244ab9dcbdda7d1/?f=cs

2.The Information Geometry of Unsupervised Reinforcement Learning
本文研究表明,基于相互信息最大化的无监督技能发现算法并不能学习对每个可能的奖励函数最优的技能。然而,技能的分布提供了最佳初始化,从而最大限度地减少了对对抗性选择的奖励函数的遗憾,假设了某种类型的适应过程。本文还提供了这些技能学习方法的几何视角。
PDF下载链接:https://www.aminer.cn/pub/615e657b5244ab9dcbf21f3f/?f=cs

3.AdaRL: What, Where, and How to Adapt in Transfer Reinforcement Learning
本文提出了一个自适应RL的原则框架,称为AdaRL,它可以可靠地适应跨域的变化。此外,研究表明,通过显式利用紧凑表示来编码更改,可以仅使用几个样本来调整策略而无需在目标域中进一步优化策略。研究者通过一系列实验说明了AdaRL的功效,这些实验允许Cartropole和Atari游戏的不同组件发生变化。
PDF下载链接:https://www.aminer.cn/pub/60e571cadfae54c432544163/?f=cs

4.C-Planning: An Automatic Curriculum for Learning Goal-Reaching Tasks
本文提出了一种算法,通过在训练时使用搜索来自动生成中间状态的课程,从而解决远处的目标实现任务。研究者证明了其方法比以前的方法更有效。此外,它能够解决非常长的视界操作和导航任务,这些任务是先前的目标条件方法和基于图搜索的方法无法解决的。
PDF下载链接:https://www.aminer.cn/pub/617771bd5244ab9dcbe7941d/?f=cs

5.LIGS: Learnable Intrinsic-Reward Generation Selection for Multi-Agent Learning
本文介绍了一个新的通用框架,用于改善多智能体强化学习器(MARL)的协调和性能。该框架名为可学习的内在奖励生成选择算法(LIGS),它引入了一个自适应学习器,生成器,它观察代理并学习在线构建内在奖励,以协调代理的联合探索和联合行为。
PDF下载链接:https://www.aminer.cn/pub/61aed0d75244ab9dcb3a6fa9/?f=cs

6.Learning Long-Term Reward Redistribution via Randomized Return Decomposition
本文提出了一种新颖的奖励再分配算法,即随机返回分解(RRD),以学习用于情节强化学习的代理奖励函数。研究者通过蒙特卡罗采样建立了一个代理问题,该问题将基于最小二乘法的奖励再分配扩展到长期问题。通过与文献中现有方法的连接来分析代理损失函数,说明了本文研究方法的算法属性。在实验中,研究者广泛评估了其提出的方法,这些方法适用于具有偶发奖励的各种基准任务,并展示了对基线算法的实质性改进。
PDF下载链接:https://www.aminer.cn/pub/61a444b45244ab9dcb6e23f0/?f=cs

更多相关论文下载:https://www.aminer.cn/conf/618e2c112cbf5c036fbbb1cc?f=cs

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值