PressLight: Learning Max Pressure Control to Coordinate（协调）Traffic Signals in Arterial Network（干线网络）

最新推荐文章于 2024-04-28 01:18:01 发布

SaMorri

最新推荐文章于 2024-04-28 01:18:01 发布

阅读量2.8k

点赞数 1

分类专栏：人工智能文章标签：算法编程语言 python 机器学习人工智能

本文链接：https://blog.csdn.net/m0_38140207/article/details/106882291

版权

人工智能专栏收录该内容

9 篇文章 0 订阅

订阅专栏

ABSTRACT

交通信号控制是提高路网运输效率的关键。由于交通动力学的复杂性，它一直是一个具有挑战性的问题。传统的交通研究缺乏对动态交通状况的适应能力。最近的研究建议使用强化学习（RL）来寻找更有效的交通信号方案。然而，大多数基于RL的研究都是以启发式的方式设计关键要素-奖励和状态。这导致了高度敏感的表现和漫长的学习过程。

为了避免RL元素的启发式设计，我们建议将RL与最近的交通研究联系起来。我们的方法受到运输领域最新方法最大压力（MP）的启发。该方法的奖赏设计得到了MP理论的有力支持，证明了该方法可以最大化交通网络的吞吐量，即最小化网络的总旅行时间。我们还证明了我们简洁的状态表示可以完全支持所提出的reward函数的优化。通过综合实验，我们证明我们的方法优于传统的运输方法和现有的基于学习的方法。

1. INTRODUCTION

交通信号协调交叉口的交通运动，智能交通信号控制算法是提高交通效率的关键。由于交通信号控制问题的高度复杂性，它仍然是一个非常活跃的研究课题。交通状况是高度动态的，因此要求交通信号计划能够适应不同的情况。

近年来，人们开始研究交通信号控制中的强化学习技术。一些研究表明，RL技术的性能优于传统的运输方法。RL的最大优点是，它通过观察前一个动作之后环境的反馈，直接学习如何采取下一个动作。

当前基于RL的交通信号控制方法的一个主要问题是，设置通常是启发式的，并且缺乏交通文献中适当的理论依据。这通常会导致高敏感的工作表现，并导致一个漫长的学习过程。我们通过研究RL设置中的两个基本元素来阐述这个问题：奖励和状态。
在这里插入图片描述
首先，文献中提出了各种奖励设计。究其原因，Travel time 这一终极目标难以直接优化。旅行时间是一种依赖于一系列行为的长期报酬，因此一个行为的效果很难用旅行时间来反映。因此，人们选择诸如 queue length 或 delay 等短期奖励来近似旅行时间。所以奖励函数通常被定义为这些项的加权和。然而，如图 1(a) 所示，根据这些项调整权重可能会导致在行程时间方面有很大不同的结果。一些文献讨论了如何结合现有的交通方式来定义奖励，但他们只关注控制单个交叉口。本文主要研究多交叉口控制方案。

其次，现有的RL方法有使用更复杂状态表示的趋势。最近的研究使用视觉图像来描述交叉口的全交通状况，这导致状态的维度达到数千。在单交叉口场景中，[35]揭示了附加信息并不总是有用的。在多交叉口场景中也可以找到类似的结论。如图 1(b) 所示，复杂的状态定义增加了学习时间，但可能不会

必然带来巨大的收益。请注意，我们并不是说附加信息总是没有帮助的。国家的选择取决于奖励的设置。基于LIT[35]的奖励设计，在图1（b）所示的情况下，不需要相邻信息。问题是，我们能否从理论上证明在 state 定义中有多少信息是足够的，以便优化奖励函数？
在这里插入图片描述
我们在RL所面临的挑战促使我们寻求交通方面的支持。在交通文献中，max pressure （MP）控制是交通信号控制的一个最新技术。MP的核心思想是将交叉口的“压力”降到最低，它可以粗略地定义为进入车道上的车辆数减去离开车道上的车辆数。图2说明了压力的概念。以交叉口压力最小为目标，证明了多方案规划能使整个路网的通行能力最大。然而，MP的解是 greedy，这导致了局部最优解。我们提出的解决方案是基于RL的，但理论上是基于MP方法的。RL和MP之间的联系是，这两种方法本质上都可以被构造为一个优化问题。在RL中，长期报酬是优化的目标，其解是通过试错搜索得到的。在多变量规划中，目标是使压力最小化，求解是由贪婪算法导出的。直观地说，如果我们将奖励函数设置为与MP目标相同的值，我们就可以得到与MP相同的结果。我们首先证明了在没有物理队列扩展的假设下，我们的方法和MP都是网络吞吐量的最大化。我们进一步证明了我们的方法可以放松对队列扩展的假设，并且结论仍然成立。

为了进一步解决状态设计的挑战，我们使用基于MP的状态特征来描述系统动力学。MP提供了演化方程，将业务的状态转移表示为马尔可夫链[28]。在RL中，Markov决策过程形式化地描述了环境的动态。通过将演化方程中的变量包含到RL的状态定义中，状态是系统动力学的一个充分统计。

我们利用合成数据和真实数据进行综合实验。我们在不同的流量和网络结构场景中测试了我们的方法。通过反复试验，证明了RL方法相对于传统运输方法的优越性。我们的方法也始终优于最新的RL方法，这表明理论支持的奖励设计是必要的，简洁的状态设计导致有效的学习过程。我们进一步讨论了用我们的方法学习到的一些有趣的策略，以表明我们的方法可以实现沿动脉的协调

2. RELATED WORK

单独的交通信号控制。单个交通信号控制在交通领域得到了广泛的研究，它试图优化车辆的行驶时间或延误，假设车辆以特定的模式到达和移动。最近，基于强化学习的方法试图通过直接从数据中学习来解决这个问题。先前使用表格式Q-learning 的工作只能用离散状态表示。最近使用deep-RL的工作可以处理更复杂的连续状态表示。[35]注意到状态定义越复杂，性能越好并不总是正确的。在[35]中，他们还研究了在运动场中，基于单个交叉口控制方法的适当改进设计。在本文中，我们主要讨论多交叉口情形。

传统的多交叉口交通信号控制。在传统的多交叉口控制中，可以通过在沿主干道的所有交叉口之间设置一个固定的 offset（即绿灯开始之间的时间间隔）来实现协调。事实上，这并不是一件容易的事，因为相反方向的交通通常不能同时进行。为了解决这个问题，我们发展了一些基于优化的方法来最小化车辆行驶时间和或在多个区间的停车次数。max pressure 不是优化 offsets，而是最大化网络的吞吐量（throughput），从而 Travel time。然而，这些方法仍然依赖于假设来简化交通状况，并且不能保证在现实世界中的预期结果。

基于RL的多交叉口交通信号控制。自RL的最新进展改善了隔离交通信号控制的性能以来[31，35]，人们一直在努力设计控制多个交叉口的策略。一种方法是考虑联合（jointly）优化学习代理之间的行为[13，25]。由于这些方法[13，25]需要在整个网络中的代理之间进行协商，因此它们的计算量很大。另一种方法是使用分散（decentralized）的RL agents来控制多交叉口系统中的交通信号[4，8，10]。由于各智能体在没有集中决策的情况下，根据自身和相邻交叉口的信息做出自己的决策，分散决策方法可能更具可扩展性和实用性。通过在系统中插入新的交叉口控制器，分散系统易于扩展。我们提出的方法也遵循这个方向。

我们注意到最近在交通信号控制中改变状态和方向的定义的趋势。对 state 和reward 定义的详细比较感兴趣的读者可以参考。我们是第一个以传统交通方式为理论基础的RL方法来协调干线交通信号。

3. PRELIMINARIES

定义3.1（交叉口的Incoming lane 和 outgoing lane）。交叉口的输Incoming lane是交通进入交叉口的车道。交叉口的outgoing lane是车辆离开交叉口的地方。我们分别用 $L_{in}$ 和 $L_{out}$ 表示交叉口的出入口车道集。

定义3.2（Traffic movement）。交通流定义为从一个入口车道穿过交叉口到出口车道的交通流。我们将从车道l到车道m的交通流表示为 $(l ， m)$ 。

定义3.3（移动信号和相位）。在交通流上定义了一个移动信号，允许绿色信号表示相应的移动，禁止红色信号表示移动。我们将移动信号表示为 $a (l, m)$ ，其中 $a (l, m) = 1$ 表示移动时绿灯亮 $(l, m)$ ， $a (l, m) = 0$ 表示移动时红灯亮 $(l, m)$ 。相位是运动信号的组合。我们用 $p = (l ， m) ∣ a (l ， m) = 1$ 表示，其中 $l\in L_{in}$ 和 $m\in L_{out}$ 。

在图3中，交叉口有12条进车道和12条出车道。八个交通信号灯（交叉口周围的红色和绿色点）由四个阶段组成，用于控制交叉口的交通流：WE Straight（从西向东直行）、SN Straight（从南向北直行）、WE Left（从西和东左转）、SN Left（从南和北左转）。特别是，我们离开允许两个交通流。当相位 #2 被激活时，来自倾斜lW的交通可以左转到相应的出口车道。

定义3.4（移动压力、交叉压力）。移动的压力定义为进入车道和离开车道之间的车辆密度差。车道的车辆密度定义为 $x(l)/x_{max}(l)$ ，其中 $x (l)$ 是车道 $l$ 上的车辆数量， $x_{max}(l)$ 是车道 $l$ 上的最大允许车辆数量。我们将移动压力 $(l, m)$ 表示为:
$m)=\frac{x(l)}{x_{\max }(l)}-\frac{x(m)}{x_{\max }(m)}$
如果所有车道的最大通行能力 $x_{max}$ 相同，则 $w (l, m)$ 只是表示进出车辆数量之间的差异。

交叉口 $i$ 的压力定义为所有交通流的绝对(absolute)压力之和，表示为：
$P_{i}=\left|\sum_{(l, m) \in i} w(l, m)\right|$
在图2中，A的交叉口压力为 $∣ 3 + 1 ∣ = 4$ ，B的交叉口压力为 $∣ - 2 + 1 ∣ = 1$ 。通常，压力 $P_i$ 表示进出车辆密度的不平衡程度。 $P_i$ 越大，车辆分布越不平衡。

问题1（多交叉口交通信号控制）。在我们的问题中，每个交叉口都由一个 RL 代理控制。在每一个time step $t$ ，我从环境中观察到的代理的state。在给定车辆分布和当前交通信号相位的情况下，智能体的目标是给出最优动作 $a$ （即设置哪个相位），从而使奖励 $r$ （即所有车辆的平均行驶时间）最大化。

4. METHOD

4.1 Agent定义

State（Observation）。我们的State是为一个交叉口定义的，其等于多智能体-RL中Observation的定义。它括当前的 phase $p$ ，the number of vehicles on each outgoing lane $\in L_{out} )$ 、the number of vehicles on each segment of every incoming lane $\in L_{in} ,k=1 ... K)$ 。本文将每条车道平均分为3段 $（ K = 3 ）$ ，并将最接近交叉口的 $l$ 车道上的路段作为第一段 $x(l)_1$ 。
Action。在时间 $t$ ，每个代理从动作集A中选择一个相位 $p$ 作为其动作 $a_t$ ，表示交通信号应设置为相位 $p$ 。在本文中，每个agent有四个允许动作，对应于图3中的四个相位。每个动作候选 $a_i$ 都表示为一个 one-hot vector。请注意，在现实世界中，信号阶段可能以循环方式组织，而我们的行动使交通信号计划更加灵活。另外，现实世界中可能有不同的阶段，四个阶段不是必须的。
Reward。我们定义回报 $r_i$ 为：
$r_i=-P_i,$
式中， $P_i$ 是交叉口 $i$ 的压力，如等式2所定义。
直观地说，压力 $P_i$ 表示进出口车辆密度的不平衡程度车道。通过最小化 $P_i$ ，系统内的车辆可以均匀分布。有效地利用了绿灯，优化了通路。

4.1 Learning过程

DQN

5. RL AGENT的证明

为了从理论上支持我们提出的方法的有效性，我们证明了我们的reward和state的设计，在一个简化的交通运输系统中，我们使用的状态可以完全描述系统动力学，并且使用等式（3）作为 reward 函数，在RL中相当于运输方法中的优化旅行时间。表1总结了一些重要的符号。
在这里插入图片描述

5.1 State Design的正当性

5.1.1 交通流运动过程的马尔可夫链一般描述。考虑Example 5.1中描述的主干道的情景。
在这里插入图片描述
Example 5.1——图4将一个不同的交通流与每个进入车道 $l\in L_{in}$ 和每个 $m\in Out_{l}$ 相关联，其中 $Out_{l}$ 是从车道 $l$ 输出的车道 set。遵循上图中的符号，使 $x (l ， m) (t)$ 是周期 $t$ 开始时的关联的车辆数， $X(t)={X(l，m)(t)}$ 是运动网络的状态，我们根据第4.1节将其视为 state。有两个变量被认为与 $X (t)$ 无关：

转弯比 $r (l ， m)$ ： $r (l ， m)$ 是一个独立同分布的随机变量，表示从 $l$ 进入 $m$ 的车辆与 $l$ 上车辆总数的比例
卸料速率 $c (l ， m)$ ：对于每一个 $(l ， m)$ ，队列卸料速率 $c (l ， m)$ 是一个非负的有界独立同分布的随机变量，即 $c (l ， m)$ ≤ $C (l ， m)$ ，其中 $C (l ， m)$ 是饱和流量。

在每个周期 $t$ 的末尾，必须从作为在周期 $(t + 1)$ 中使用的 $X^t$ 的函数的action集合 $A^t={(l，m)| a^t (l，m)}$ 中选择一个action $A^t$ ,表示 agent 将给出从 $l$ 到 $m$ 的绿灯形式，请参见图4的底部。

文章[26]中给出了 $X (t)$ 的演化方程。对于每一个 $(l ， m)$ 和 $t$ ， $x (l ， m)$ 的演化包括接收和释放，并由以下方程捕获：

在这里插入图片描述
其中， $In_l$ 表示输入到 $l$ 的车道集。对于第二终点方程式（4），当 $l$ 是接收车道时，如果 $a (k ， l) (t) = 1$ ，则高达 $x (k ， l)$ 的车辆将从 $k$ 移动，如果 $r (l ， m) = 1$ ，则高达 $x (k ， l)$ 的车辆将从 $k$ 移动，并且当交通运动 $(l ， m)$ 被控制时，即 $a (l ， m) (t) = 1$ ，高 $x (l ， m)$ 如果 $m$ 车道上没有堵塞，即 $x(m)≤x_{max}(m)$ ，则车辆将离开 $l$ 并绕行至 $m$ ，其中 $x_{max}(m)$ 是 $m$ 车道上的最大允许车辆数。

假设初始状态 $X (1) = X (l ， m) (1)$ 是有界随机变量。由于
$A (t) = A (l ， m) (t)$
是当前状态 $X (t)$ 的函数， $c (l ， m)$ 和 $r (l ， m)$ 都独立于 $X (1) ， \dots ， X (t)$ ，过程 $X (t)$ 是一个马尔可夫链。链的转移概率取决于控制策略。

5.1.2具有拟定状态定义的规范。
我们可以从车道层到路段层修改交通运动方程。我们将 $x(l)_1$ 表示最接近交叉口的路段 $l_1$ 上的车辆数量， $x(l)_2$ 表示与 $l_1$ 相连的第二最近路段上的车辆数量。假设车辆在进入车道时变道，即 $x (l ， m) = x (l)$ ， $l _i+1$ 上的所有车辆在时间 $t$ 内进入下一个路段 $l i$ ，则最接近交叉口的路段上的移动过程可以写成：
在这里插入图片描述
其他段的方程可以用类似的方法导出.

利用上述车道和路段运动演化方程，可以得到单个交叉口的演化，即所有相关车道方程的组合。对于单个交叉点 $i$ ， $c (l ， m)$ 是每个运动的恒定物理特征，而 $x(l)_1$ 、 $x(l)_2$ 和 $x (m)$ 是在我们的状态定义中提供给 RL agent的。因此，我们的 state 的定义可以完全描述系统的动力学。

5.2 Reward Design的的正当性

5.2.1以提议的奖励稳定交通运行。受[26]的启发，我们首先放松了它关于动脉中物理队列扩展的假设。然后证明了RL agent 的目标是稳定队列长度，从而最大化系统吞吐量和最小化车辆行驶时间。

定义5.2（运动过程稳定性）。运动过程 $X(t)={X(l，m)(t)}$ 在平均值上是稳定的（ $u$ 是一个稳定控制策略），如果对于某些 $m < \infty$ ，则如下：
$\sum_{t=1}^{T} \sum_{(l, m)} E[x(l, m)(t)]<M, \quad \forall T$
其中 $E$ 表示期望值。平均移动稳定性意味着链是正递归的，并且对于所有 $T$ 具有唯一的稳定状态概率分布。

定义5.3（最大压力控制策略[26]）。在每个周期 $t$ ，agent 选择在每个状态下具有最大 pressure 的 action： $\tilde{A}^{*}(X)=\arg \max _{\tilde{A} \in A} \theta(\tilde{A}, X)$ ，其中 $\tilde{A}$ 的压力定义为
$\theta(\tilde{A}, X)=\sum_{(l, m): a(l, m)=1} \tilde{w}(l, m)$

$\tilde{w}(l, m)=x(l)-x(m)$ 是每次 movement 的压力。在本文中，我们使用波浪符号表示最大压力策略，即 $\tilde{A}$ ，以便将其与 RL 策略区分开来。

定理5.4。在不考虑物理队列扩展的情况下，只要平均需求是允许的，由最大压力控制策略选择的动作 $\tilde{A}$ 和由我们的 RL 策略选择的动作 $A^*$ 都能使系统稳定。

证明。对于最大压力控制策略，[26]中的定理1表明，给定一个时间段 $t = 1, . . ., T$ 存在 $m < \infty$ 和 $ϵ > 0$ ，使得 $\tilde{A}^{*}: \epsilon \cdot \frac{1}{T} \sum_{t=1}^{T} E[X(t)] \leq m+\frac{1}{T} \cdot E[X(1)]^{2}$ ，其中 $X (1)$ 表示 $T = 1$ 时的状态。

对于最优 RL 控制策略，代理在每个状态 $X$ 选择具有最优 $Q (A ， X)$ 的动作 $A$ ：
$A^{*}(X)=\arg \max _{A \in A} Q(A, X)$
其中 $Q_{t}(A, X)=E\left[r_{t+1}+\gamma r_{t+2}+\ldots \mid A, X\right]$ 表示在状态 $X$ 下的最大总报酬，取时间 $t$ （为了简单起见，在等式（7）中我们忽略时间 $t$ ）。RL reward 中的压力定义与最大压力之间的区别在于，我们的RL代理在等式（1）中使用考虑最大允许车辆数 $x_{max}$ 的加权压力。如果假设车道在同一长度 $x_{max}(l)$ 内，则规范化 $x (l)$ 的稳定性结果仍然成立。

定理5.5。考虑到主干道环境中的物理队列扩展，我们的 RL 策略选择的动作 $A^*$ 也在稳定移动。
与文献[26]不同的是，我们现在建立了定理5.5的证明，它消除了在主干道环境中没有物理队列扩展的假设。在主干道环境中：

假设侧道车道 $m_{side}$ 上的最大允许车辆数 $x_{max}$ 为无穷大，因此等式（1）中的第二项为零。因此我们得到 $w\left(l, m^{s i d e}\right)=\frac{x(l)}{x_{\max }(l)}>0$ 。
当沿干道的出口车道 $m_{main}$ 饱和时，由于队列膨胀，方程（1）中的第二项约为1。因此， $w\left(l, m^{\operatorname{main}}\right) \approx \frac{x(l)}{x_{\max }(l)}-1<0$ .

这意味着当我们考虑在主干道上的物理队列扩展时， $w(l，m^{side})>w(l，m^{main})$ ，控制策略将限制队列溢出，因为它禁止更多的车辆冲入下游交叉口，并阻止其他阶段的车辆移动。因此，等式（6）中的 $M$ 现在可以设置为 $\leq \sum_{t=1}^{T} \sum_{(l, m)} x_{\max }(m)$ 。

5.2.2连接到吞吐量最大化和行程时间最小化。
考虑到每个交叉口的交通运行过程是稳定的，因此系统是稳定的。在没有掉头的干线环境中，从 $m$ 车道移动到 $l$ 车道的车辆不会再从 $l$ 车道移动到 $m$ 车道，即在 $x (m ， l)$ 和 $x (l ， m)$ 之间，只有其中一个车辆可以存在于干线网络下。这样 RL 代理所采取的行动就不会形成阻塞或阻塞网络，从而可以有效地利用绿色时间。在给定的时间段 $T$ 内，RL 代理可以提供最大的吞吐量，从而最小化系统内所有车辆的行驶时间。