目录
问题设定
一般而言,一个或多个Agent控制路网交通信号。
- Agent — 交通信号灯
- enviroment — 道路交通状态
- t t t — 时刻
- s t s_t st — 状态,表示对环境的描述。如车辆位置、速度、排队长等
1. State 状态
- 离散化交通状态编码。即将交叉口分割为固定长度的网格,通过每个网格中的布尔值确定该位置是否存在车辆。可获得高分辨率交叉口信息;
- 图像快照(截图)获得速度、加速度信息、信号相位等信息
- 首车等待时间、排队长、相位时长
- 左转车辆数 / 占比
- 附近交叉口信息
- 当前相位持续时间
- 当前时刻
2. Action 动作
获得环境信息后选择要采取的动作并观察动作带来的奖励 R e w a r d Reward Reward 及新的 S t a t e State State。
- 保持相位
- 设置相位持续时间
- 设置相位分配比例
- 改变至下一相位
- 选择并改变相位
动作集合离散,因此较少用基于策略梯度的方法。
3. Reward 奖励
全局奖励或局部奖励。全局奖励以学习到整个路网最优为目标;局部奖励训练每个智能体稳定性。
奖励可能包括赋权的:
- 等待时间
- 排队长
- 延误时间
- 相位变化(0-1变量)
- 最小动作时间内通过车辆数
- 车道限速和实际车速之差 与限速比值 的相反数
- Lin 等人将交叉口的净流出量作为全局奖励,交叉口东西方向和南北方向队列长度的差值绝对值的相反数作为局部奖励,系统最终的奖励函数为赋权的(局部奖励+全局奖励)的混合函数
4. 仿真环境
SUMO、Paramics、VISSIM与MATLAB集成、CityFlow
一、单点深度强化学习方法
1. 基本方法
大致可分为基于值和基于梯度策略两类:
基于值:
- Deep Q Network, DQN
- Double Deep Q Network, DDQN
- Double Dueling Deep Q Network (双重决斗深度Q 网
络() - Prioritized Experience Replay(具有优先经验回放的深度Q 网络)
基于策略梯度:
- Actor-Critic, A2C/A3C
2. 改进的DRL方法
- Liang 等人[29],使用双DQN与决斗DQN结合(双重决斗DQN),优先经验回放提高有意义的经验的采样率(与DQN相比提高了模型可收敛性);模型训练过程不稳定
- Mousavi 等人[8],基于值+基于策略梯度,输入时交叉口截图
- Wan 等人[26],将动作和状态同时作为输入估算Q值并输出动作,根据智能体的两个动作执行时间间隔确定动态折扣因子,时间间隔越长,则折扣因子越小(该实验发现,将动作作为输入添加到神经网络中,训练结束后只需要输出一个动作的值可以使DQN的训练难度降低)
[29] LIANG X, DU X, WANG G, et al. A deep reinforcement learning network for traffic light cycle control[J]. IEEE Transactions on ehicular Technology, 2019, 68(2): 1243-1253.
[8] MOUSAVI S S, SCHUKAT M, HOWLEY E. Traffic light control using deep policy-gradient and value-function-based reinforcement learning[J]. IET Intelligent Transport Systems, 2017, 11(7): 417-423.
[26] WAN C H, HWANG M C. Value-based deep reinforcement learning for adaptive isolated intersection signal control[J]. IET ntelligent Transport Systems, 2018, 12(9): 1005-1010.
3. 基于自编码器的DRL方法
Li 等人[4]通过将DQN 中的值函数逼近器由传统的DNN 更改为堆栈自编码器(SAE)
[4] LI L, LÜ Y, WANG F Y. Traffic signal timing via deep inforcement learning[J]. IEEE/CAA Journal of Automatica Sinica, 2016, 3(3): 247-254.
4. 基于模糊推理确定道路运行模式
Kumar 等人[54]首先根据车辆种类将道路运行模式分为三类:公平模式、优先模式和紧急模式。
通过模糊逻辑推理确定道路当前运行模式,并根据车辆类型分配相应车道的绿灯时间。
考虑车辆的异质性(如优先安排应急车辆通过)最小化等待时间。
[54] KUMAR N, RAHMAN S S, DHAKAD N. Fuzzy inference enabled deep reinforcement learning-based traffic light control for intelligent transportation system[J]. IEEE Transactions on Intelligent Transportation Systems, 2020.
5. 基于路关键点优化控制
Xu 等人[27]将信号控制分两个阶段:路网关键节点发现、信号控制策略学习
通过地图匹配方法实现路网区域划分,并将路网划分为三分图,然后根据三分图对每个交叉口的重要性进行排序,实现路网关键节点发现;
在发现路网关键节点后利用基于深度回归Q 网络(Deep Recurrent Q Network,DRQN)
[27] XU M, WU J, HUANG L, et al. Network-wide traffic signal control based on the discovery of critical nodes and deep reinforcement learning[J]. Journal of Intelligent Transportation Systems, 2020, 24(1): 1-10.
6. 通过添加噪声提高鲁棒性
Tan 等人[55]。模型训练过程中添加适当噪声模拟现实世界中状态信息获取可能不准确的情况,有效提高模型的鲁棒性。
[55] TAN K L, SHARMA A, SARKAR S. Robust Deep einforcement Learning for Traffic Signal Control[J]. Journal of Big Data Analytics in Transportation, 2020, 2(3): 263-274.
二、区域信号控制协同优化
(待续)
三、总结与展望
- 简化输入的状态提高学习效率
- 提高模型性能的同时要注意算法复杂度和收敛难度
- 安全问题:黑盒性质、不可解释;鲁棒性等
- 公平问题:当前相位持续时间结束时才能确定下一相位,这会导致驾驶员不知道要在交叉口等待多长时间
- 不能局限仿真,要利用真实交通流和实际路网
- 嵌入混合交通流、紧急车辆优先等管理思想增强决策实用性
总体参考文献
本文是基于该文献等做出的总结笔记:
[1]徐东伟,周磊,王达,丁加丽,魏臣臣.基于深度强化学习的城市交通信号控制综述[J/OL].交通运输工程与信息学报:1-21[2021-10-24].https://doi.org/10.19961/j.cnki.1672-4747.2021.04.017.