目录
总结
本文将A2C算法与IQL算法结合,应用到多体的交通信号灯领域,并且为了解决部分可观测的、非稳定的问题,采取了综合邻居信息和空间衰减因子的方法。
摘要
对于复杂城市交通网络的适应性交通信号灯控制(adaptive traffic signals control),强化学习(RL)是一种非常有前景的方法,并且深度神经网络进一步增强了它学习的能力。
问题:然而,对于大规模的ATSC,由于联合动作空间的极度高维度,集中化的RL是不可行的。MARL(multi agent RL)通过分散全局控制到每一个局部的RL智能体,克服了扩展性的问题,但是引入了新的挑战:从每一个局部智能体的观点来看,由于智能体之间有限的通信,环境变成部分可观测的了。
大部分现有工作关注于在传统的Q-learning智能体中,设计一个高效的通讯和协调。
本文(首次)提出一个完全可扩展而且去中心化的MARL算法,适用于ATSC领域的领域领先的算法A2C(advantage actor critic)。
本文提出的MA-A2C与独立的A2C、独立的Q-learning算法,在一个大型的模拟交通网络和一个真实交通网络中对比,模拟的是高峰时的交通动态。结果显示出本文方法的最优性、鲁棒性和采样效率都优于其他领先的去中心化MARL算法。
引言
第一个形式化IA2C到ATSC的,通过把IQL与A2C结合起来。