Multi-Agent Deep Reinforcement Learning for Large-scale Traffic Signal Control

最新推荐文章于 2025-03-30 10:36:20 发布

Conn22

最新推荐文章于 2025-03-30 10:36:20 发布

阅读量2.3k

点赞数 5

分类专栏：深度学习强化学习文章标签：人工智能算法强化学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_33026195/article/details/109297769

版权

本文提出了一种适用于大规模交通信号控制的、完全可扩展且去中心化的多智能体A2C算法。通过结合IQL与A2C，解决了部分可观测性和不稳定性问题，使用邻居信息和空间衰减因子。实验结果显示，该方法在模拟和真实交通网络中表现出优越的性能、鲁棒性和采样效率。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

目录

总结

本文将A2C算法与IQL算法结合，应用到多体的交通信号灯领域，并且为了解决部分可观测的、非稳定的问题，采取了综合邻居信息和空间衰减因子的方法。

摘要

对于复杂城市交通网络的适应性交通信号灯控制（adaptive traffic signals control），强化学习（RL）是一种非常有前景的方法，并且深度神经网络进一步增强了它学习的能力。

问题：然而，对于大规模的ATSC，由于联合动作空间的极度高维度，集中化的RL是不可行的。MARL（multi agent RL）通过分散全局控制到每一个局部的RL智能体，克服了扩展性的问题，但是引入了新的挑战：从每一个局部智能体的观点来看，由于智能体之间有限的通信，环境变成部分可观测的了。

大部分现有工作关注于在传统的Q-learning智能体中，设计一个高效的通讯和协调。

本文（首次）提出一个完全可扩展而且去中心化的MARL算法，适用于ATSC领域的领域领先的算法A2C（advantage actor critic）。

本文提出的MA-A2C与独立的A2C、独立的Q-learning算法，在一个大型的模拟交通网络和一个真实交通网络中对比，模拟的是高峰时的交通动态。结果显示出本文方法的最优性、鲁棒性和采样效率都优于其他领先的去中心化MARL算法。

引言

第一个形式化IA2C到ATSC的，通过把IQL与A2C结合起来。

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。