AAMAS 2021接收论文列表:
HTTPS://WWW.IFAAMAS.ORG/PROCEEDINGS/AAMAS2021/FORMS/CONTENTS.HTM
AAMAS 2021 MARL论文(36篇)
一、非应用类(33篇)
1.Learning Correlated Communication Topology in Multi-Agent Reinforcement learning MARL中相关通信拓扑的学习
Yali Du, Bo Liu, Vincent Moens, Ziqi Liu, Zhicheng Ren, Jun Wang, Xu Chen, Haifeng Zhang
(PDF | Details)
多智能体通信Multi-agent Communication
有的智能体通信研究仅限于预定义的固定连接。虽然注意机制存在,并且有助于安排智能体之间的通信,但它在很大程度上忽略了通信的动态性质,从而忽略了智能体之间连接的相关性。在这项工作中,我们采用规范化流程来编码智能体之间的交互关系,动态通信拓扑直接通过最大化智能体回报来学习。在我们的端到端公式中,通信结构是通过将其视为隐藏的动态变量来学习的。环境:MPE合作导航;自适应交通控制任务。
2.An Abstraction-based Method to Check Multi-Agent Deep Reinforcement-Learning Behaviors 一种基于抽象的MADRL行为检测方法
Pierre El Mqirmi, Francesco Belardinelli, Borja G. León
(PDF | Details)
安全强化学习Safe RL
MARL通常难以确保学习智能体的安全行为,因此通常不适用于安全关键应用。为了解决这个问题,我们提出了一种将形式验证与RL算法相结合的方法,以确保在训练和测试中满足形式指定的安全约束。
3.Safe Multi-Agent Reinforcement Learning via Shielding 基于屏蔽的安全多智能体强化学习
Ingy ElSayed-Aly, Suda Bharadwaj, Christopher Amato, Rüdiger Ehlers, Ufuk Topcu, Lu Feng
(PDF | Details)
安全强化学习Safe RL
MARL已越来越多地应用于各种安全关键应用中,这些应用要求在学习过程中确保安全(如从不访问不安全的状态)。不幸的是,目前的MARL方法没有安全保证。因此,我们提出了两种安全MARL的屏蔽方法。
4.Partially Observable Mean Field Reinforcement Learning 部分可观测平均场强化学习
Sriram Ganapathi Subramanian, Matthew E. Taylor, Mark Crowley, Pascal Poupart
(PDF | Details)
平均场强化学习Mean-field RL/大量智能体
传统的MARL算法不能扩展到具有很多智能体的环境中,但利用平均场理论可以将MARL算法扩展到有更多智能体的场景。这方面之前的工作假设,智能体可以访问有关系统平均场行为的精确累积度量,然后可以使用这些度量采取行动。在本文中,我们放松了这个假设,并保持一个分布来模拟系统平均场的不确定性。
5.Multi-Agent Reinforcement Learning with Temporal Logic Specifications 基于时序逻辑规范的多智能体强化学习
Lewis Hammond, Alessandro Abate, Julian Gutierrez, Michael Wooldridge
(PDF | Details)
时序逻辑规范Temporal Logic Specifications
我们研究了在未知环境中,一组可能表现出概率行为的智能体学习满足时序逻辑规范的问题。从学习的角度来看,这些规范提供了一种丰富的形式化语言,用于捕获任务或目标,而从逻辑和自动验证的角度来看,学习能力的引入允许在大型、随机、未知环境中进行实际应用。然而,这方面的现有工作有限。我们开发了第一种面向时序逻辑规范的多智能体强化学习技术,提出了ALMANAC(Automaton/Logic Multi-Agent Natural Actor Critic)算法。
6.Cooperative-Competitive Reinforcement Learning with History-Dependent Rewards基于历史奖励的合作-竞争强化学习
Keyang He, Bikramjit Banerjee, Prashant Doshi
(PDF | Details)
混合合作竞争环境
我们首先证明了智能体的决策问题可以被建模为一个交互式部分可观测马尔可夫决策过程(I-POMDP),该过程捕捉了历史相关奖励的动态。我们提出了一种交互式优势演员-评论家方法(Interactive Advantage Actor-Critic,IA2C+),将独立的A2C网络与一个信念过滤器相结合,该过滤器保持了对其他智能体模型的信念分布。
7.Deep Implicit Coordination Graphs for Multi-agent Reinforcement Learning 多智能体强化学习的深层隐式协调图
Sheng Li, Jayesh K. Gupta, Peter Morales, Ross Allen, Mykel J. Kochenderfer
(PDF | Details)
协调Coordination/协调图Coordination Graphs
在需要协调的MARL中,完全集中控制通常是不可行的。基于协调图的形式化允许基于交互结构对联合动作进行推理。然而,它们的设计通常需要领域专家。本文介绍了适用于此类场景的深层隐式协调图(Deep Implicit Coordination Graphs ,DICG)体系结构,允许通过标准的AC方法学习完全集中和分散之间的权衡,以显著改善具有大量智能体的域的协调。实验环境:PP,SMAC,交通枢纽环境。
8.Contrasting Centralized and Decentralized Critics in Multi-Agent Reinforcement Learning 多智能体强化学习中集中与分散Critic的对比
Xueguang Lyu, Yuchen Xiao, Brett Daley, Christopher Amato
(PDF | Details)
Critic
我们正式分析了集中和分散的critics方法,从而对critic选择的含义有了更深入的理解。我们表明,目前的文献中存在关于集中式critics的误解,并表明集中式critic设计并非绝对有益,而是集中式和分散式critic都有不同的优点和缺点,算法设计者应该加以考虑。
9.Modeling the Interaction between Agents in Cooperative Multi-Agent Reinforcement Learning 多智能体协作强化学习中的智能体交互建模
Xiaoteng Ma, Yiqin Yang, Chenghao Li, Yiwen Lu, Qianchuan Zhao, Jun Yang
(PDF | Details)
协作Cooperation/交互建模
提出了一种新的合作MARL算法,称为交互式行动者-批评家(Interactive Actor-Critic,IAC),该算法从策略和价值函数的角度对智能体之间的交互进行建模。实现时,我们将价值分解方法扩展到连续控制任务,并在基准任务(包括经典控制和MPE)上评估IAC。
10.Cooperation between Independent Reinforcement Learners under Wealth Inequality and Collective Risks 财富不平等和集体风险下独立强化学习者的合作
Ramona Merhej, Fernando P. Santos, Francisco S. Melo, Francisco C. Santos
(PDF | Details)
公共物品困境public goods dilemma/财富不平等Wealth Inequality
我们研究了财富不平等如何影响独立强化学习者群体的行为动态特性,这些学习者面临着收益不确定的临界公共品困境。该游戏允许个人向一个公共池捐款或不捐款,以减少他们未来损失的机会。阈值引入的非线性、风险引入的随机性以及参与者的财富异质性导致了一个具有多重均衡的博弈环境。我们发现,在这种情况下,学习者的动态特性在决定达到的平衡点方面起着重要作用。我们的研究结果表明,在基于个人的学习下,财富不平等会对新兴的集体行为产生相当大的影响,从而降低群体成功的总体机会。
11.Reward Machines for Cooperative Multi-Agent Reinforcement Learning 多智能体协作强化学习的奖励机
Cyrus Neary, Zhe Xu, Bo Wu, Ufuk Topcu
(PDF | Details)
协作Cooperation/奖励机Reward Machines
我们提出使用奖励机器(RM)——作为奖励函数的结构化表示的Mealy机器——对团队的任务进行编码。
12.Cooperative and Competitive Biases for Multi-Agent Reinforcement Learning 多智能体强化学习中的合作和竞争偏差
Heechang Ryu, Hayong Shin, Jinkyoo Park
(PDF | Details)
我们提出了一种算法,利用基于朋友或敌人概念的其他智能体的有偏动作信息来增强MARL训练。
13.Towards Decentralized Social Reinforcement Learning via Ego-Network Extrapolation 基于自我网络外推的分散式社会强化学习
Mahak Goindani, Jennifer Neville
(PDF | Details)
在这项工作中,我们在定向社会网络中考虑具有大量智能体的MARL的问题。用户活动之间的网络依赖性会影响个人行为的回报,需要将其纳入策略学习中,然而,定向交互要求每个用户都能部分观察到网络。在本地估计策略时,由于状态信息不足,用户很难有效地了解网络依赖关系。为了解决这个问题,我们在一个分散的策略学习和执行框架中使用了参数共享和自我网络外推。
14.Attention Actor-Critic Algorithm for Multi-Agent Constrained Co-operative Reinforcement Learning 多智能体约束协作强化学习的注意AC算法
P. Parnika, Raghuram Bharadwaj Diddigi, Sai Koti Reddy Danda, Shalabh Bhatnagar
(PDF | Details)
带约束的Constrained
我们考虑在一个合作环境中计算RL的最优行动的问题,其中目标是优化一个共同的目标。然而,在许多实际应用中,代理还需要满足对其动作指定的某些约束。在这种设置下,智能体的目标不仅是学习优化公共目标的操作,而且还要满足指定的约束。近年来,带有注意机制的Actor-Critic算法已成功地应用于多智能体环境中。在本研究中,我们将此算法扩展到有约束的MARL环境。
15.Approximate Difference Rewards for Scalable Multigent Reinforcement Learning 可扩展多智能体强化学习的近似差分奖励
Arambam James Singh, Akshat Kumar, Hoong Chuin Lau
(PDF | Details)
我们解决了大规模多智能体系统中的多智能体信用分配问题。差异奖励(Difference Rewards,DRs)是解决这一问题的有效工具,但其精确计算即使对少量智能体来说也是一个挑战。我们提出了一种可扩展的方法,