多智能体强化学习在城市交通网络信号 控制方法中的应用综述
交通信号控制系统在物理位置和控制逻辑上分散于动态变化的网络交通环境, 将每个路口的交通信号控制器看做一个异质的智能体, 非常适合采用无模型、自学习、数据驱动的多智能体强化学习(MARL) 方法建模与描述。
本文系统回顾了现有MARL方法在城市道路交通网络信号控制中的研究和应用, 探讨了将 MARL应用于大规模区域交通控制的关键问题。
为了研究该方法的现状、存在问题及发展前景, 论文跟踪了多智能体强化学习在国内外交通控制领域 的具体应用, 包括:交通信号 MARL 控制概念模型、完全孤立的多智能体强化学习的控制、 部分状态合作的多智能体强化学习控制、动作联动的多智能体强化学习控制。
背景
Multi agent reinforcement learning based traffic signal control for integrated urban network: survey of state
多智能体强化学习(multi-agent reinforcement learning, MARL)
MARL控制可根据控制效果的反馈信息自主学习并优化策略知识,是一种真正的闭环反馈控制。
1 交通信号MARL控制基本概念
1. 1 RL交通控制标准模型
交通信号 RL 智能体的标准模型如图1 所示。 每个路口的交通信号机被抽象为一个智能体, 控制对象为道路交通网络上的时变交通流。