IJCAI2023 多智能体强化学习论文合集

IJCAI2023收录的多智能体强化学习论文展示了最新的研究,包括竞争合作强化学习在联邦学习中的应用,模型化道德选择,通过时空序列决策诱导斯塔克勒布格平衡,解释性强化学习,基于Transformer的通信框架,自监督神经元分割,大规模交通信号控制,深度分层通信图,去中心化异常检测,以及差分隐私通信算法。这些研究涵盖了协作、安全、效率和隐私等多个重要议题。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

国际人工智能联合会议(International Joint Conference on Artificial Intelligence, 简称为IJCAI)是人工智能领域中最主要的学术会议之一。该会议每两年举办一次,汇聚了世界各地的学者、研究人员和工程师,分享最新的人工智能研究成果、探讨前沿技术和趋势、以及交流学术思想和见解。

AMiner通过AI技术,对 IJCAI2023 收录的会议论文进行了分类整理,今日分享的是多智能体强化学习主题论文,共11篇,我们在这里展示十篇最受欢迎的论文,欢迎下载收藏!

1.Competitive-Cooperative Multi-Agent Reinforcement Learning for Auction-based Federated Learning 论文详情页

作者:Xiaoli Tang,Han Yu

链接:https://www.aminer.cn/pub/6467126fd68f896efaf14fd5/?f=cs

ChatPaper综述(大模型驱动):多机构干预学习(AFL)是一种促进数据消费者共同参与的新技术。现有的AFL方法难以处理数据消费者之间的相互影响,而无法支持单个数据消费者同时加入多个数据消费者。本文提出了一种基于温度的奖励重塑方案,以实现对协同和竞争行为进行权衡。通过设计一个基于气温的奖励重塑方案, MARL AFL可以实现平衡状态,确保个人数据消费者能够实现良好的服务,同时也保护系统水平的社会福利。本文在六个常用的基准数据集上进行了大量实验,结果表明 MARL AFL显著优于六种最先进的方法,分别在平均社会福利、收入和模型准确性方面表现最佳。

2.Modeling Moral Choices in Social Dilemmas with Multi-Agent Reinforcement Learning 论文详情页

作者:Elizaveta Tennant,Stephen Hailes,Mirco Musolesi

链接:https://www.aminer.cn/pub/63cdfab690e50fcafd106f57/?f=cs

ChatPaper综述(大模型驱动):本文系统分析了基于固有动机的反向学习(RL)实体的行为,旨在设计具有简化的奖励结构。首先,我们定义了反向和影响的关系,并分析了不同类型的道德行为对合作、厌恶或剥削的出现以及相关社会结果的影响。最后,我们讨论了这些发现对人工和混合人类AI社会的道德 Agent的发展的影响。

3.Inducing Stackelberg Equilibrium through Spatio-Temporal Sequential Decision-Making in Multi-Agent Reinforcement Learning 论文详情页

作者:Bin Zhang,Lijuan Li,Zhiwei Xu,Dapeng Li,Guoliang Fan

链接:https://www.aminer.cn/pub/6441ff2eed329dcc6bb7493e/?f=cs

ChatPaper综述(大模型驱动):本文提出了一种多协同干预学习方法,通过建立局部时间顺序决策处理结构,从马尔可夫游戏(MG)框架中提取了斯塔克勒布格平衡(SE)的理论,并提出了一个基于所有agent共享的N级政策模型。该方法能够实现对异构训练,同时保持参数共享,从而减少学习和存储成本,同时也提高了扩展性和可扩展性。实验证明,我们的方法在反复的矩阵游戏情景中有效地结合了SE策略,并且在非常复杂的条件下表现出色,包括协同任务和混合任务。

4.Explainable Multi-Agent Reinforcement Learning for Temporal Queries 论文详情页

作者:Kayla Boggess,Sarit Kraus,Lu Feng

链接:https://www.aminer.cn/pub/64659ad1d68f896efa875375/?f=cs

ChatPaper综述(大模型驱动):本文提出了一种生成策略层相似解释方法,以应对时间的用户查询,该方法将时间查询编码为PCTL逻辑函数,通过概率模型检查验证问题是否可实现。这种方法还可以生成正确的和完全的解释,以指出使用户查询无法实现的原因。我们已经将该方法应用于四个基准 MARL领域(高达9个agent在一个领域中),并且用户研究结果表明,生成的解释显著提高了用户性能和满意度。

5.Scalable Communication for Multi-Agent Reinforcement Learning via Transformer-Based Email Mechanism 论文详情页

作者:Xudong Guo,Daming Shi,Wenhui Fan

链接:https://www.aminer.cn/pub/64671255d68f896efaf13e57/?f=cs

ChatPaper综述(大模型驱动):本文提出了一种新框架的Transformer基于电子邮件机制(tem)。该框架采用局部通讯,只向观察到的任何人发送消息。受人类与电子发送信息合作的启发,我们设计了消息链,通过编码和解码消息链以选择下一个接收器来协作。实验结果表明,Tem在多个协同 MARL基准测试中性能优于基准。

6.Self-supervised Neuron Segmentation with Multi-Agent Reinforcement Learning 论文详情页

作者:Yinda Chen,Wei Huang,Shenglong Zhou,Qi Chen,Zhiwei Xiong

链接:https://www.aminer.cn/pub/64671256d68f896efaf13fb3/?f=cs

ChatPaper综述(大模型驱动):本文提出了一种基于决策的模糊图像模型(MIM),它利用激励学习(RL)自动搜索最优图像掩盖比例和遮挡策略,以克服先前训练不均衡的问题。通过将每个输入片段视为一个具有共同行为政策的agent,允许多机构合作,我们提出了该模型,并证明了该方法在神经切分任务上的显著优势。实验结果表明,该方法与其他自监督方法相比具有显著的优势。

7.GPLight: Grouped Multi-agent Reinforcement Learning for Large-scale Traffic Signal Control 论文详情页

作者:Yilin Liu,Guiyang Luo,Quan Yuan,Jinglin Li,Lei Jin,Bo Chen,Rui Pan

链接:https://www.aminer.cn/pub/64671261d68f896efaf14554/?f=cs

ChatPaper综述(大模型驱动):本文提出了一种分组 MARL方法,名为GPLight,该方法首先比较agent环境和动态聚类之间的相似性,然后提出了两个损失函数来维持可学习和动态聚类,一个应用互信息估计以提高稳定性,另一个旨在最大限度地实现聚类。最后,GPLight在小组中执行相同的网络和参数,以确保准确性。与目前最先进的方法相比,实验结果表明,我们的方法在大规模CTL中具有优异的性能。

8.Deep Hierarchical Communication Graph in Multi-Agent Reinforcement Learning 论文详情页

作者:Zeyang Liu,Lipeng Wan,Xue Sui,Zhuoran Chen,Kewu Sun,Xuguang Lan

链接:https://www.aminer.cn/pub/64671269d68f896efaf14c11/?f=cs

ChatPaper综述(大模型驱动): 本文提出了Deep Hierarchical Communication Graph(DHCG)用于学习基于传递的agent之间的依赖关系。DHCG旨在消除图中的周期,并将其映射到允许的解决方案集上,以提高成本和协调能力。研究结果表明,该方法在协作多机构任务中表现出优异的性能,包括隐马尔可夫、多机构协调挑战和星球大战多机构挑战。实证结果表明,该方法在多个协作多机构任务中表现出优异的性能,包括隐马尔可夫、多机构协调挑战和星球大战多机构挑战。

9.Decentralized Anomaly Detection in Cooperative Multi-Agent Reinforcement Learning 论文详情页

作者:Kiarash Kazari,Ezzeldin Shereen,Gyorgy Dan

链接:https://www.aminer.cn/pub/6467126bd68f896efaf14c92/?f=cs

ChatPaper综述(大模型驱动):本文研究了在协同学习中检测敌对攻击的问题。我们提出了一种分散的神经网络(RNN)方法,用于预测其他agent的动作分布,基于局部观察。预测分布用于计算Agent的正常度分数,该分数用于检测其他agent的行为不当行为。为了探讨所提出的检测方案的鲁棒性性质,我们将其定义为以压缩激励学习问题,并通过优化对应的双重函数来计算攻击策略。

10.DPMAC: Differentially Private Communication for Cooperative Multi-Agent Reinforcement Learning 论文详情页

作者:Canzhe Zhao,Yanjie Ze,Jing Dong,Baoxiang Wang,Shuai Li

链接:https://www.aminer.cn/pub/6433f69590e50fcafd6e3187/?f=cs

ChatPaper综述(大模型驱动):本文提出了一种名为"多重实体通信"(DPMAC)算法,用于保护个人信息的敏感信息。该算法采用一个随机消息发送器和将DP要求纳入发送器,自动调节学习消息分布以消除DP噪音。此外,我们证明了与保护隐私问题合作的DPMAC存在平衡,这表明这个问题是非理论上学习的。实验结果表明,在保护隐私问题方面,DPMAC比基线方法具有显著的优势。

—————————————————————————————————————

点击下方链接可查看所有多智能体强化学习论文:

https://www.aminer.cn/conf/5ea1b5f2edb6e7d53c00c875/IJCAI2023

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值