多智能体深度强化学习(MADRL)在大规模交通信号灯控制中的应用

《Multi-Agent Deep Reinforcement Learning for Large-Scale Traffic Signal Control》

IEEE Transaction on Intelligent tansportation systems/2020

论文及代码链接https://arxiv.org/abs/1903.04527https://arxiv.org/abs/1903.04527

1 摘要

        强化学习(RL)是解决复杂城市交通网络中自适应交通信号控制(ATSC)的一种很有前途的数据驱动方法,而深度神经网络进一步增强了其学习能力。然而,由于联合动作空间的维数过高,集中式RL不适用于大规模的ATSC。多Agent RL(MARL)通过将全局控制分配给每个局部RL Agent来克服可伸缩性问题,但也带来了新的挑战:现在,由于Agent之间的通信有限,从每个局部Agent的角度来看,环境变得部分可观测。现有的MARL研究大多集中于设计传统Q-学习智能体之间的有效沟通和协调。本文首次在ATSC环境下提出了一种完全可扩展的分布式MARL算法,该算法适用于目前最先进的 deep RL agent--Advantage Actor Critic(A2C)。特别地,通过提高局部智能体的可观测性和降低学习难度,提出了两种稳定学习过程的方法,并在摩纳哥城市大型合成交通网格和大型真实交通网络上模拟高峰时段交通动态,将提出的多智能体A2C算法与独立A2C和独立Q-学习算法进行了比较。实验结果表明,与其他最先进的分散MARL算法相比,该算法具有最优性、稳健性和采样效率。

2 介绍

        自适应交通信号控制(ATSC)的目标是根据实时交通动态调整信号配时,以减少饱和路网中潜在的拥堵。

        集中式RL Agent对于大规模TSC不可行的原因:

        (1)需要收集网络中的所有流量测量数据,并将其作为全局状态反馈给Agent,这种集中状态处理本身将导致高延迟和高故障率,会丢失网络的拓扑信息。

        (2)智能体的联合行动空间在信号交叉口的数量上呈指数增长。

因此,将ASTC描述为一个协作多智能体RL问题是十分有效的,其中每个交叉口由一个本地RL智能体控制。

        为了开发一个稳定和健壮的IA2C系统,进一步提出了两种方法来解决IA2C在有限通信条件下的部分可观测性(partially observable)和非稳态特性(nonstationary):

        (1)我们包含了状态中相邻Agent的观察结果和指纹,这样每个本地Agent就可以获得更多关于区域交通分布和合作策略的信息。

        (2)引入空间折扣率来减少相邻智能体的观察和奖励信号,使每个局部智能体更专注于改善附近的交通状况。

        从收敛角度看,第一种方法提高了拟合能力,而第二种方法降低了拟合难度。

3 MA2C for Traffic signal control

3.1 MDP settings

        考虑Ts时间内的模拟交通环境,定义Δtw为RL Agent和交通环境之间交互的周期。

3.1.1 Action

        动作设置为红路灯组合。

3.1.2 State

        这篇文章将局部状态定义为:

        其中,每个交叉口的进入车道i。wait[s]测量第一辆车的累积延迟,而Wave[veh]测量每个进入车道在交叉口50m内车辆的总数。通过近交叉感应环路检测器(ILD)可以获得Wait和Wave,确保实时TSC。为了简化实现,我们使用SUMO中的laneAreadetector来收集状态信息。 

3.1.3  Reward

         一个合适的MARL奖励应该是可分解且可频繁测量的,这篇文章将奖励定义为:

这篇文章所提算法框架如下图:

 4 实验

        基于MARL的ATSC在两个相扑模拟交通环境中进行了评估:5×5的合成交通网格和从摩纳哥城市[44]提取的真实世界30个十字路口的交通网络,在时变交通流下进行评估。本部分旨在设计具有挑战性和现实性的交通环境,以便在控制器之间进行有趣和公平的比较。

4.1 综合交通网络

         5×5交通网格是由限速20m/s的双车道主干道和限速11m/s的单车道大道组成的,每个交叉口的作用空间包括五个可能的阶段:E-W直行阶段、E-W左转阶段和E、W、N-S三个直行和左转阶段,每个交叉口的作用空间包括五个可能的阶段:E-W直行阶段、E-W左转阶段和E、W、N-S三个直行阶段和左转阶段。

4.2 对比实验图展示

 

 

 

 

 

 

 

 

基于深度强化学习交通信号灯智能控制是一种使用深度Q网络算法的自适应交通信号控制方法。这种方法可以根据实时交通情况来优化交通信号的调度,以提高交通效率和缓解拥堵问题。传统的固定时序交通信号控制方法往往不能很好地适应实时交通需求,而深度强化学习可以通过不断学习和优化来适应不同的交通情况。 在这种方法交通信号灯控制是通过强化学习算法来实现的。强化学习是一种通过试错和奖励机制来学习最优行为的机器学习方法。在交通信号灯控制,交通仿真环境被用来进行训练和测试。通过与环境的交互,深度Q网络可以学习到在不同交通情况下应该采取的最优信号控制策略。 这种基于深度强化学习交通信号灯智能控制方法具有很大的潜力。它可以根据实时交通情况来动态地调整信号灯的时序和时长,以最大程度地提高交通效率和减少拥堵。通过不断的学习和优化,这种方法可以适应不同的交通场景和需求,从而实现更智能和高效的交通信号控制。 综上所述,基于深度强化学习交通信号灯智能控制是一种能够根据实时交通情况来优化交通信号的调度的方法,它可以提高交通效率和缓解拥堵问题。\[1\]\[2\]\[3\] #### 引用[.reference_title] - *1* *2* [R语言深度学习:基于强化学习的自适应交通信号控制](https://blog.csdn.net/m0_68036862/article/details/130625497)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^insertT0,239^v3^insert_chatgpt"}} ] [.reference_item] - *3* [自动驾驶前沿综述:基于深度强化学习的自动驾驶算法](https://blog.csdn.net/Yong_Qi2015/article/details/124012805)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^insertT0,239^v3^insert_chatgpt"}} ] [.reference_item] [ .reference_list ]
评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

码丽莲梦露

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值