读书笔记 - Multi-agent Reinforcement Learning for Traffic Signal Control

《Multi-agent Reinforcement Learning for Traffic Signal Control》

在本文中,我们将 traffic signal control (TSC) 问题制定为 折扣成本马尔可夫决策过程(MDP) 并应用多智能体强化学习(MARL)算法来获得动态TSC策略。
我们将每个交通信号交叉点建模为独立代理,代理使用基于e-greedyUCB探索策略的多代理Q学习以循环(RR)方式决定其阶段的信号持续时间。它根据从其邻近代理收到的成本反馈信号更新其Q因子
我们通过对VISSIM的仿真表明,我们的算法在两个真实的道路网络上的性能明显优于标准固定信号定时(FST)算法和饱和平衡(SAT)算法。


背景

实时流量根据复杂的随机过程演变。马尔可夫决策过程(MDP) 为实现这一目标提供了一个良好的框架。然而,状态和动作空间的维度随着道路网络中交叉点(交叉点)的数量呈指数增长。因此,可能不得不求助于近似方法来解决MDP

多智能体强化学习(MARL) 为我们提供了一个方便的数学平台来解决这个问题。强化学习(RL)方法在这里非常适合,因为它们在线并且从经验中学习良好的控制策略。多代理系统也非常适合,因为它们有助于控制状态和动作空间的维度,因为每个代理只查看状态空间的一部分并控制它们。

Corridor-Based Coordination of Learning Agents for Traffic Signal Control by Enhancing Max-Plus Algorithm

有大量研究旨在通过MARL方法最大限度地减少道路使用者的延迟。在【5】中提出了多代理系统对TSC问题的可行性和适用性的调查。在【11】中提出了max-plus算法作为分散配置中的协调策略。在【1】中已经提出了用于大型交通网络的多代理Q学习,其中基于每个交叉点处的本地信息更新Q因子。

【1】 M. Abdoos, N. Mozayani, and A.L.C. Bazzan. Traffic light control in non-stationary environments based on multi agent q-learning. In Intelligent Transportation Systems (ITSC), 2011 14th International IEEE Conference on, pages 1580–1585. IEEE, 2011.
【11】J.C. Medina and R.F. Benekohal. Traffic signal control using reinforcement learning and the max-plus algorithm as a coordinating strategy. In Intelligent Transportation Systems (ITSC), 2012 15th International IEEE Conference on, pages 596–601. IEEE, 2012.


具有 函数逼近(FA) 的RL在【13】中被研究用于处理大的状态动作空间。这减轻了维数效应的诅咒,但却带来了特征选择的问题。此外,只有在更强的假设下才能提供具有FA的RL的收敛保证。
在【4】中,基于车辆的表示已经被用于从样本构建环境模型,并且应用动态编程来估计最优值函数。
在【2】中描述了具有RL的多代理系统,其中使用了两种代理 - 中央代理和外部代理。中央代理学习使用值函数近似来控制Q学习,而出站代理遵循最长队列优先算法。由于FA不保证多代理系统的收敛性并且所获得的策略是次优的,[2]的作者提到了一些提高FA性能的技术。

【13】L.A. Prashanth and S. Bhatnagar. Reinforcement learning with function approximation for traffic signal control. IEEE Transactions on Intelligent Transportation Systems, 12(2):412–421, 2011
【4】B. Bakker, S. Whiteson, L. Kester, and F. Groen. Traffic light control by multiagent reinforcement learning systems. Interactive Collaborative Information Systems, pages 475–510, 2010
【2】I. Arel, C. Liu, T. Urbanik, and A.G. Kohls. Reinforcement learning-based multi-agent system for network traffic signal control. Intelligent Transport Systems, IET, 4(2):128–135, 2010


在【16】中描述了协作RL算法,其中Q学习代理根据玻尔兹曼动作选择技术建立其动作选择。 在[16]中,尽管具有

  • 2
    点赞
  • 15
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值