Multi-Agent Deep Reinforcement Learning for Large-scale Traffic Signal Control

本文提出了一种适用于大规模交通信号控制的、完全可扩展且去中心化的多智能体A2C算法。通过结合IQL与A2C,解决了部分可观测性和不稳定性问题,使用邻居信息和空间衰减因子。实验结果显示,该方法在模拟和真实交通网络中表现出优越的性能、鲁棒性和采样效率。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

目录

摘要

引言

方法


总结

本文将A2C算法与IQL算法结合,应用到多体的交通信号灯领域,并且为了解决部分可观测的、非稳定的问题,采取了综合邻居信息和空间衰减因子的方法。

摘要

对于复杂城市交通网络的适应性交通信号灯控制(adaptive traffic signals control),强化学习(RL)是一种非常有前景的方法,并且深度神经网络进一步增强了它学习的能力。

问题:然而,对于大规模的ATSC,由于联合动作空间的极度高维度,集中化的RL是不可行的。MARL(multi agent RL)通过分散全局控制到每一个局部的RL智能体,克服了扩展性的问题,但是引入了新的挑战:从每一个局部智能体的观点来看,由于智能体之间有限的通信,环境变成部分可观测的了。

大部分现有工作关注于在传统的Q-learning智能体中,设计一个高效的通讯和协调。

本文(首次)提出一个完全可扩展而且去中心化的MARL算法,适用于ATSC领域的领域领先的算法A2C(advantage actor critic)。

本文提出的MA-A2C独立的A2C、独立的Q-learning算法,在一个大型的模拟交通网络和一个真实交通网络中对比,模拟的是高峰时的交通动态。结果显示出本文方法的最优性、鲁棒性和采样效率都优于其他领先的去中心化MARL算法。

引言

第一个形式化IA2C到ATSC的,通过把IQL与A2C结合起来。

多智能体深度强化学习,用于群组分发中的任务卸载。 多智能体深度强化学习是一种强化学习的方法,可以应用于群组分发中的任务卸载问题。在群组分发中,有多个智能体,每个智能体都拥有一定的处理能力和任务需求。任务卸载是指将任务从一个智能体卸载到其他智能体上进行处理,以实现任务优化和系统性能的提升。 多智能体深度强化学习通过使用深度神经网络来构建智能体的决策模型,并基于强化学习框架进行智能体的训练和决策制定。在任务卸载中,每个智能体的状态可以由其当前的任务负载、处理能力和通信延迟等因素来表示。智能体的动作则是选择是否将任务卸载到其他智能体上进行处理。通过与环境交互,智能体可以通过强化学习来调整其决策策略,以优化任务卸载过程中的系统性能。 在多智能体深度强化学习中,可以使用任务奖励来指导智能体的行为。例如,当一个智能体选择将任务卸载给处理能力更高的智能体时,可以给予奖励以鼓励这种行为。同时,如果任务卸载导致较高的通信延迟或任务负载不均衡等问题,可以给予惩罚以避免这些不良的决策。 通过多智能体深度强化学习,可以实现群组分发中的任务卸载优化。智能体可以通过学习和适应来提高系统的整体性能和效率,从而实现任务分配的最优化。这种方法可以应用于各种领域,例如云计算、物联网和机器人协作等多智能体系统。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值