读书笔记 - Kuyer - Multiagent RL for Urban Traffic Control using CG

本文探讨了使用多智能体强化学习(Multiagent RL)和协调图(Coordination Graphs)进行城市交通控制。通过引入协作算法,解决了交通灯之间的行为协调问题,以提高交通效率。实验展示了max-plus算法在交通网络中的应用,特别是在减少平均行程等待时间和停止车辆比例方面的优势,证明了这种方法在循环图上的有效性和扩展性。
摘要由CSDN通过智能技术生成

Multiagent Reinforcement Learning for Urban Traffic Control using Coordination Graphs

多代理强化学习的先前工作中,代理仅选择本地最优的动作而不协调行为。本文将这种方法扩展到包括相邻交通灯之间的协作。使用max-plus算法实现协调,该算法通过在连接的代理之间发送本地优化的消息来估计最佳联合动作。


背景

将强化学习应用于交通控制的一种方式是训练单个代理来控制整个系统。然而,这种集中控制器的扩展非常差,因为代理的动作集的大小是交通灯数量的指数。
另一种方法是将问题视为多代理系统,其中每个代理控制单个交通信号灯【3,14】。由于每个代理仅观察其本地环境并且仅在该交通灯相关的动作中进行选择,因此该方法可以扩展到大量代理。
但该方法的主要限制是各个代理间不协调其行为。因此,代理可以选择局部最优的个体动作,但这些动作一起可能导致全局效率低下。


本文通过使用 协作算法cooperative learning 来扩展强化学习,使其应用到交通控制问题中。
我们假设代理仅受那些对其环境有直接影响的代理(即网络中的邻居)的影响。在这种假设下,全局协作问题被分解为一组局部协作问题,并可以使用协调图来解决【9】。

我们应用max-plus【10】,它通过在连接的代理之间发送本地优化消息来估计最优联合动作。它还允许代理在任何时间报告其当前的最佳动作(即使到目前为止的动作可能不是最理想的)。


本文做了几点贡献:
首先,它通过使用相邻交通灯的可扩展协作来扩展现有的强化学习交通控制框架。
其次,它首次将max-plus应用于大规模问题,从而验证其在实际环境中的功效。
第三,它还证明了max-plus在循环图上表现良好,尽管它已被证明仅对树结构图收敛。
第四,它提供了对交通网络对于这种协作必须具有的属性的新理解,并且表明max-plus在具有这些属性的网络上优于先前的方法。


交通模型

GLD微观交通模拟器

本文介绍的所有实验均使用 GLD交通模拟器【3,14】进行。GLD是一种微观交通模型,即它 单独模拟每辆车而不是简单地模拟交通流的总体属性 。模型的动态变量代表微观特性,例如每辆车的位置和速度。车辆根据其物理特性(例如长度,速度等),基本运动规则和驾驶员行为的预定义规则在网络中移动。
GLD的模拟基于元胞自动机,其中离散的、部分连接的元胞可以占据各种状态。例如,道路单元可以由车辆占用或者是空的。局部转换规则决定了系统的动态,甚至简单的规则也可以导致高度动态的系统。

GLD基础设施:道路、节点
道路连接两个节点,并且每个方向可以有多个车道。每条道路的长度以单元格cell表示。
节点是可操作的交通灯边缘节点edge node。车辆在边缘节点处进入网络,并且每个边缘节点在每个时间步都有一定概率产生车辆,每个生成的车辆都会分配一个其他边缘节点作为目的地。每个边缘节点的目的地分布可以被调整。
对于每个交叉口,有几种安全的灯光配置。在每个时间步,交叉路口在给定当前状态下必须从这些灯光配置中进行选择。

GLD车辆
车辆的类型由其速度长度乘客数量来定义。
当车辆穿过交叉路口时,其驾驶策略确定它下一个车道。一旦选择了车道,车辆就不能切换到其他车道。

在这里插入图片描述

每辆车的行为取决于它如何选择通向其目标节点的路径以及它如何随时间调整其速度

在我们的实验中,车辆总是选择到目的地节点的最短路径。所有车辆具有相同的长度和相同数量的乘客。

在以前的工作【3,14】中,车辆总是以恒定速度行驶,并且在每个时间步长只有一辆车可以穿过交叉路口。
我们扩展模拟器以允许更多动态行为。现在可以实现三种速度(每时间步长2,4或6个单元)。车辆以4的速度进入网络;在每个时间步时,车辆在其为4时保持当前速度的可能性为78%,在2或6时为88%。
此外,可穿过交叉口的车的数量取决于车辆速度和目的地车道的状态。


交通控制中的强化学习模型

之前已经有了几种用于交通控制的技术,如 Sarsa【13】、Q-learning【1,13】之类的无模型强化学习方法。然而它们都遭受同样的问题:由于状态空间的大小迅速增长,它们不能扩展到大型网络。因此,它们仅应用于小型网络或者用于训练同类控制器(通过在单个孤立交叉点上训练并将结果复制到网络中的其他交叉点)。


一种更易处理的方法是使用基于模型的强化学习
其中 transition 和 reward functions 是根据经验估计的,然后用于通过动态规划等规划方法找到策略【4】。
transition function转移函数必须将系统中每个车辆的位置映射到下一个时间步的位置。这样做显然是不可行的,但如果使用基于车辆的表示vehicle-based【14】,学习模型仍然是可能的。

在该方法中,基于每个单独的车辆将全局状态分解成局部状态。
转移函数将给定时间步的一个车辆位置映射到下一个时间步的位置。于是,状态数量在单元数量上呈线性增长,并且可以扩展到更大的网络。此外,转换函数可以根据在不同位置收集的经验进行概括,而不必为每个位置学习单独的映射。


为了表示模型,我们只需要跟踪 转换(s, a, s’)发生的次数状态-动作对(s, a)
于是,转移模型可以通过最大似然概率 ∣ ( s , a , s ′ ) ∣ ∣ ( s , a ) ∣ \frac{|(s, a, s')|}{|(s, a)|} (s,a

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值