多智能体深度强化学习（MADRL）在大规模交通信号灯控制中的应用

最新推荐文章于 2024-08-19 11:07:05 发布

码丽莲梦露

最新推荐文章于 2024-08-19 11:07:05 发布

阅读量3.8k

点赞数 7

分类专栏： # 交通信号灯控制 # 多智能体强化学习论文阅读与实现文章标签：交通信号灯控制强化学习深度强化学习多智能体强化学习 ATSC

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/crazy_girl_me/article/details/120699295

版权

论文阅读与实现同时被 3 个专栏收录

39 篇文章 102 订阅

订阅专栏

多智能体强化学习

10 篇文章 14 订阅

订阅专栏

交通信号灯控制

1 篇文章 2 订阅

订阅专栏

《Multi-Agent Deep Reinforcement Learning for Large-Scale Traffic Signal Control》

IEEE Transaction on Intelligent tansportation systems/2020

论文及代码链接https://arxiv.org/abs/1903.04527https://arxiv.org/abs/1903.04527

1 摘要

强化学习(RL)是解决复杂城市交通网络中自适应交通信号控制(ATSC)的一种很有前途的数据驱动方法，而深度神经网络进一步增强了其学习能力。然而，由于联合动作空间的维数过高，集中式RL不适用于大规模的ATSC。多Agent RL(MARL)通过将全局控制分配给每个局部RL Agent来克服可伸缩性问题，但也带来了新的挑战：现在，由于Agent之间的通信有限，从每个局部Agent的角度来看，环境变得部分可观测。现有的MARL研究大多集中于设计传统Q-学习智能体之间的有效沟通和协调。本文首次在ATSC环境下提出了一种完全可扩展的分布式MARL算法，该算法适用于目前最先进的 deep RL agent--Advantage Actor Critic(A2C)。特别地，通过提高局部智能体的可观测性和降低学习难度，提出了两种稳定学习过程的方法，并在摩纳哥城市大型合成交通网格和大型真实交通网络上模拟高峰时段交通动态，将提出的多智能体A2C算法与独立A2C和独立Q-学习算法进行了比较。实验结果表明，与其他最先进的分散MARL算法相比，该算法具有最优性、稳健性和采样效率。

2 介绍

自适应交通信号控制(ATSC)的目标是根据实时交通动态调整信号配时，以减少饱和路网中潜在的拥堵。

集中式RL Agent对于大规模TSC不可行的原因：

（1）需要收集网络中的所有流量测量数据，并将其作为全局状态反馈给Agent,这种集中状态处理本身将导致高延迟和高故障率，会丢失网络的拓扑信息。

（2）智能体的联合行动空间在信号交叉口的数量上呈指数增长。

因此，将ASTC描述为一个协作多智能体RL问题是十分有效的，其中每个交叉口由一个本地RL智能体控制。

为了开发一个稳定和健壮的IA2C系统，进一步提出了两种方法来解决IA2C在有限通信条件下的部分可观测性（partially observable）和非稳态特性(nonstationary)：

（1）我们包含了状态中相邻Agent的观察结果和指纹，这样每个本地Agent就可以获得更多关于区域交通分布和合作策略的信息。

（2）引入空间折扣率来减少相邻智能体的观察和奖励信号，使每个局部智能体更专注于改善附近的交通状况。

从收敛角度看，第一种方法提高了拟合能力，而第二种方法降低了拟合难度。

3 MA2C for Traffic signal control

3.1 MDP settings

考虑Ts时间内的模拟交通环境，定义Δtw为RL Agent和交通环境之间交互的周期。

3.1.1 Action

动作设置为红路灯组合。

3.1.2 State

这篇文章将局部状态定义为：

其中，每个交叉口的进入车道i。wait[s]测量第一辆车的累积延迟，而Wave[veh]测量每个进入车道在交叉口50m内车辆的总数。通过近交叉感应环路检测器（ILD）可以获得Wait和Wave，确保实时TSC。为了简化实现，我们使用SUMO中的laneAreadetector来收集状态信息。

3.1.3 Reward

一个合适的MARL奖励应该是可分解且可频繁测量的，这篇文章将奖励定义为：

这篇文章所提算法框架如下图：

4 实验

基于MARL的ATSC在两个相扑模拟交通环境中进行了评估：5×5的合成交通网格和从摩纳哥城市[44]提取的真实世界30个十字路口的交通网络，在时变交通流下进行评估。本部分旨在设计具有挑战性和现实性的交通环境，以便在控制器之间进行有趣和公平的比较。

4.1 综合交通网络

5×5交通网格是由限速20m/s的双车道主干道和限速11m/s的单车道大道组成的，每个交叉口的作用空间包括五个可能的阶段：E-W直行阶段、E-W左转阶段和E、W、N-S三个直行和左转阶段，每个交叉口的作用空间包括五个可能的阶段：E-W直行阶段、E-W左转阶段和E、W、N-S三个直行阶段和左转阶段。

4.2 对比实验图展示

码丽莲梦露

关注

7
点赞
踩
49

收藏

觉得还不错? 一键收藏
打赏
5
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 5

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

码丽莲梦露 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。