Transferable traffic signal control: Reinforcement learning with graph centric state representatio

最新推荐文章于 2024-09-13 13:51:59 发布

可鲁贝洛斯-

最新推荐文章于 2024-09-13 13:51:59 发布

阅读量602

点赞数

分类专栏：论文文章标签：机器学习算法人工智能

本文链接：https://blog.csdn.net/qq_45353993/article/details/131042542

版权

论文专栏收录该内容

10 篇文章 0 订阅

订阅专栏

Transferable traffic signal control: Reinforcement learning with graph centric state representatio 可传输的交通信号控制：基于图中心状态表示的强化学习

ABSTRACT

强化学习（RL）已成为优化交通信号控制系统的一种替代方法。然而，在交通模拟中，当使用预定义的需求场景来训练信号控制模型时，会遇到一个有限的勘探问题。在有限的探索下，该模型只基于搜索空间中的部分经验来学习一个策略，从而产生一个部分训练的策略。部分训练的策略无法适应一些没有经验的（“未探索的”、“从未见过的”）的数据集，这些数据集与训练数据集有不同的分布。虽然这一问题对训练信号控制模型有关键的影响，但在文献中尚未被考虑。因此，本研究旨在获得一个可转移的策略，以提高模型对无经验的交通状态的适用性。其关键思想是将状态表示为图结构的数据，并使用图神经网络（GNN）对其进行训练。由于这种方法能够学习由交集的空间结构所产生的特征之间的关系，因此它能够将已经学习过的关系知识转移到没有经验的数据中。为了研究其可转移性，在5个无经验的测试需求场景上进行了实验。在评价方面，我们将所提出的GNN模型与传统的基于向量值状态的DQN模型进行了性能比较。首先，这些模型只用一个数据集进行训练（训练需求场景）。然后，在不同的没有经验的数据集（测试需求场景）中对它们进行测试，而不需要额外的训练。结果表明，所提出的GNN模型获得了一个可转移的策略，从而能够更好地适应无经验的交通状态，而传统的DQN模型则失效。

Introduction

交通信号控制是缓解城市地区交通拥堵的有效解决方案之一。自20世纪60年代以来，人们提出了各种优化信号计时的方法（韦伯斯特，1958 32；米勒，196323；文森特和杨，198629）和自适应控制（Diakaki等人，20028；高德纳，198313；亨利等人，198416；亨特等人，198215；森和海德，199726；西姆斯和多宾森，198027）是仍在许多城市使用的最新方法。然而，由于当交通需求过饱和时，它的有效性仍然会降低（Chang et al.，20106），一些研究已经被提出开发一种新的信号控制方法。近年来，人们对应用人工智能（AI）等新兴技术来开发智能信号，作为智能城市的核心之一产生了极大的兴趣。特别是，基于强化学习（RL）的方法在文献中经常尝试，因为它提供了一个成本效益高的最优解决方案（Ernst et al.，200811）。

开发基于rl的信号控制模型的重要问题是如何构建模型变量以及如何有效地训练模型，因为它们极大地影响了模型的有效性和性能。因此，目前的研究大多集中在模型设计（状态、行动、奖励）和训练算法上。我们可以参考关于这个问题的调查（El-Tantawy et al.，201410）。尽管在使用新兴的深度学习技术开发基于rl的信号控制模型方面有了很大的改进，但在验证方面存在一个重要的研究差距。在文献中，目前的大多数研究在一天的特定时间（TOD）用预定义的需求场景训练他们的模型，并使用相同的TOD模式进行测试。在这种情况下，即使是一个训练有素的模型也不能适应那些没有经验的tod的某些交通状态，因此控制操作就会失败。

这个问题是由于在交通模拟中使用预定义的需求场景训练信号控制模型时遇到的受限勘探问题引起的。一般来说，交通模拟可以作为“环境”，并为代理提供“体验”。然后，代理程序会根据所提供的经验来学习该策略。然而，由于交通模拟从本质上是基于给定的需求场景而运行的，因此它在一定的有限搜索空间中诱发了交通状态。因此，由于探索，代理只基于部分经验学习策略，从而产生了部分训练的策略。然后，经过部分训练的策略无法适应一些没有经验的（“未探索的”、“从未见过的”）流量状态。一种可能的解决方案是通过增加培训场景的数量来丰富经验。然而，这并不简单，因为存在无数的可能性来组合需求模式，而且它还需要相当大的计算来对每个场景进行训练。此外，如果考虑一个多智能体控制问题，它会变得更加复杂。

因此，我们提出了一种新的方法，重点关注政策的可转移性。可转移性是指模型对与训练数据集有不同分布的无经验数据集的适应能力。可转移策略可以使用已经有经验的信息来增强模型对另一种需求模式的无经验流量状态的适用性。其关键思想是将状态表示为图结构的数据，并使用图神经网络（GNN）对其进行训练。GNN是在基于图的领域上运行的新兴深度学习技术之一（Zhou et al.，202034）。

GNN与传统的全连接神经网络的一个主要区别在于输入特征之间的关系假设。GNN接受以节点特征和边缘特征为输入的图结构数据，并在考虑节点和边缘之间的空间相关性的同时更新节点特征。具体来说，它学习了与边连接的两个节点特征之间的成对关系，而忽略了不直接连接的两个节点之间的关系。因此，GNN能够将已经学习过的关系知识转移到没有经验的数据中。

因此，本研究旨在通过将交通状态表示为一个图，并利用图结构的数据对策略进行训练，从而获得一个可转移的策略。为此，我们首先确定了训练信号控制模型的限制性探索问题。然后，我们开发了一个基于图的RL模型，该模型应用于状态的图表示（GNN模型）和一个基于向量值状态的传统RL模型（DQN模型）。为了研究其可转移性，我们在五种不同的测试需求场景下进行了实验。为了评价，将提出的GNN模型与传统的DQN模型进行了比较。首先，这些模型只用一个数据集进行训练（训练需求场景）。然后，在不同的没有经验的数据集（测试需求场景）中对它们进行测试，而不需要额外的训练。在本研究中，实验是在一个良好控制的简单几何结构中进行的，只关注所提方法的有效性。

Related work

据作者所知，RL在交通信号控制中的第一个应用出现在（Thorpe，199728）中。本研究引入了sarsa（状态-动作-奖励-状态-动作）作为一个信号控制模型的训练算法。并考虑了该方法的多智能体应用。从那时起，人们提出了许多方法，通过应用各种RL方法来建立一个有效的信号控制模型。在早期的应用中，大多数研究采用简单的表格学习算法，如萨萨（埃尔-坦塔维等，201410；索普，199728)或q学习（阿布斯等，20111；阿卜杜海等人，20032；阿雷尔等人，20103；埃尔-坦塔维等人，20139；普拉珊斯和巴特纳格，201125；麦地那和贝内科哈尔，2012年22；连线，2000年33），如（表1）所示。这些方法具有在线学习结构，使模型可以与交通仿真同时进行训练。此外，不需要建立状态转换模型，因为它们使用无模型的方法。然而，使用这些简单类型的表格学习算法来训练模型是非常费力的，因为每一个可能的状态和动作对都应该足够频繁地访问，以获得一个全局有效的策略。因此，许多研究尝试应用新引入的DRL算法(Chu等人，2019年7；李等人，2016年19；Liang等人，2019年20；Wang等人，2018年30；Casas，2017年5；高等人，2017年12；性别和拉扎维，2016年14）。在这些DRL算法中，DQN（深度Q网络）是最常用的使用深度神经网络来估计离散动作空间上的DRL值的算法。目前的另一项研究采用了基于策略梯度的训练算法来处理信号定时的连续值（Casas，20175）。

为了将范围扩展到多智能体问题，早期研究使用元启发式算法以集中方式优化多个交通信号的信号时间。然而，有人指出，由于维度的诅咒，集中化的方法对大规模的交通信号控制并不有效（El-Tantawy et al.，20139）。因此，引入了分散的方法(Abdoos等人，2011年1；Arel等人，2010年3；El-Tantawy等人，2013年9；普拉珊斯和巴特纳格尔，2011年25；麦地那和贝内科哈尔，2012年22；连线，2000年33）。

table 1 在这里插入图片描述
table 1

然而，在引入DRL算法后，后来的研究再次考虑了单智能体问题，来探索这种新方法的适用性。这些模型的效率通常与简单的表格学习算法或不包含深度学习结构的浅层网络的模型进行比较（Li等人，201619；Liang等人，201920；Casas，20175；性别和Razavi，201614）。由于人们普遍认为DRL算法在应用于交通信号控制时比传统的RL算法更有效，近年来，大规模交通控制的分散协调多智能体方法被重新考虑（Chu et al.，20197）。

RL的主变量（状态、动作、奖励）的参数配置是模型设计的关键。对于状态变量，主要使用与密度相关的因素，如队列长度或占用率。然而，有人批评密度的估计具有挑战性，因为交通状态不能完全可见（Casas，20175）。此外，（Gao et al.，201712）的研究人员批评说，这些人为工艺因素可能会忽略有用的交通信息。因此，有人尝试直接使用链接的原始像素图像数据作为状态变量，通过分割路段，并将其转换为一个特征矩阵。我们在（表1）中将此矩阵称为链接分割矩阵，该方法用于（Jeon等人，201817；Liang等人，201920；Gao等人，201712；性别和Razavi，201614）。然而，也很难获得整个链接部分的原始图像，而且当细化分割以捕获驱动程序的微观行为时，状态变量的维数就会增加。因此，充分定义状态变量仍然是一个持续存在的问题。

RL任务的目标确实是最大化总期望奖励，因此，奖励是根据研究人员建立的目标函数立即定义的。以下因素通常用于定义奖励：吞吐量（林等，201821；麦地那和贝尼科哈尔，201222)，平均速度（卡萨斯，2017)5，延迟或等待时间（阿卜杜海等，20032；阿里等，20103；楚等，20197；埃尔-坦塔维等，20139；梁等，201920；高等，201712；性别和拉扎维14，200033)，队列长度差异（阿布杜斯等，20111；李等人，201619；普拉珊和巴特纳加，201125；林等人，201821)。由于奖励与目标函数直接相关，因此不仅需要用用来定义奖励本身的因素，还要用其他测量方法来验证该模型。

行动变量还与交通信号操作相关的因素，如“信号相位选择”（Arel等，20103；楚等，20197；普拉珊斯和巴特纳加，201125；性别和拉扎维，201614）、“相位持续时间”（阿布杜斯等，20111；卡萨斯，20175；梁等，201920)；和“相位开关”（阿卜杜海等，2003年2；埃尔坦塔维等，20139；李等，201619；高等，201712；林等，2018年21；窃听，200033)。但是，不推荐使用诸如“信号相位选择”和“相位开关”等定义，因为这些定义会改变信号周期时间。周期时间缩短可能导致十字路口频繁停车，导致能力下降（Wang et al.，2018）。此外，网络中多个交通信号灯的信号周期的变化可能会干扰代理之间的协调。此外，信号相位的频繁变化可能会使人类驾驶员感到困惑，并且可以跳过人行横道的信号。因此，我们建议在本研究中应用“阶段持续时间”来定义动作变量。

最后，我们将重点关注文献综述中最重要的部分：模型验证。如（表1）所示，一个信号控制模型是通过针对某个TOD的一个（或少量）需求场景进行训练的。然后，在大多数情况下，根据相同TOD的相同（或稍微修改的）需求模式对训练后的模型进行测试。在这种情况下，人们可能不会期望该模型在不同tod的无经验的交通状态上显示出更好的结果，即使该模型在已经有经验的交通状态上显示出更好的性能。然而，要在文献中找到一个显示不同需求模式验证的案例并不容易。因此，本研究表明，传统RL模型在遇到无经验需求模式时的性能会下降，并为开发可转移策略以增强对无经验状态的适应性提供了一种新的方法。

Restricted exploration problem

RL是一种通过与环境交互来寻找最优策略的迭代方法。RL代理制定动态环境到马尔可夫决策过程（MDP）框架，由 $<\mathscr{S}，\mathscr{A}，\mathscr{P}，\mathscr{R}，\gamma >$ ，其中 $\mathscr{S}$ 是一个状态空间， $\mathscr{A}$ 是一个行动空间， $\mathscr{P}$ 是一个过渡概率函数定义在状态和行动空间， $\mathscr{R}$ 是奖励函数定义在状态和行动空间， $\gamma$ 是一个折扣率。

RL代理的目标是找到最大化预期未来累积奖励的策略 $\pi： \mathscr{S}→\mathscr{A}$ , $\pi^*=max_{\pi}E_{\pi}[\sum^T_{\tau=t}\gamma^{\tau-t}\cdot r_{\tau}]$ ,通过与环境的反复互动。RL代理使用在与环境交互期间获得的历史转换样本 $s_t、a_t、r_t、s_{t+1}）$ 来更新策略。在各种RL算法中，我们的模型是在Q-学习（Watkins，1989）31的框架上开发的，这是一种非策略方法，旨在学习一个函数，评估给定状态的行动质量， $\mathscr{S}×\mathscr{A}→\mathbb{R}$ 。

在训练过程中，RL代理以两种方式与环境进行交互；第一种是使用学习到的策略作为参考并采取最好的行动（利用），第二种是采取随机行动，而不是在采取行动之前学习到的最佳行动（探索）。探索在RL中起着重要的作用，因为执行动作获得的样本限制了近似策略函数的搜索空间。因此，为了获得有效的策略功能，深入探索搜索空间并为代理提供各种经验是很重要的。然而，由于交通模拟的独特特点，对训练信号控制模型的探索表现出了与传统模型不同的行为。交通模拟基本上是基于一个旅行需求场景，该场景主要由一个O-D矩阵及其生成规则（称为到达率）组成。因此，它根据给定的需求场景产生在搜索空间的某个限制区域内的流量状态。我们称之为基于场景的勘探，以区别于典型的勘探，即随机勘探。通过基于场景的探索，代理只基于部分经验来学习策略，从而产生经过部分训练的策略。

这两种勘探方法之间的差异见（图1）。
在这里插入图片描述图1…(a)随机探索的探索状态；(b)基于场景的探索。

每个图都描述了在训练期间所探索的状态。每个灰点代表单一的探索状态，其亮度随着训练的进行而变得更暗。在这两个图中都绘制了两个样本状态轨迹。（图1a）是传统RL任务的一个例子：“Pendulumv0”的游戏训练，它来自一个开发RL模型的开放平台，称为“openAIGym”（Brockman et al.，2016）4。其目标是试图保持一个无摩擦的钟摆站立起来。其目标是试图保持一个无摩擦的钟摆站立起来。这个任务的状态用一个三维向量定义为 $[cos\theta,sin\theta,\.θ]$ 。但是，为了方便起见，我们只考虑在 $[cos\theta,\.θ]$ 的二维平面上的投影图像。我们可以注意到，最后一个episode（episode 283）的状态轨迹收敛于 $cos θ = 1$ ， $\.θ = 0$ 的期望状态。

另一方面，（图1b）显示了由某个TOD的需求场景训练的信号控制模型的探索状态。该状态被定义为一个由排队车辆的数量组成的四维向量 $d^{E→W}，d^{W→E}，d^{S→N}，d^{N→S}]$ 。详情见下一章。简单的表示，状态平均修改为二维向量的两个组件组，即 $[\=d^{EW}，\=d^{SN}]：=[（d^{E→W}+d^{W→E}）/2，（d^{S→N}+d^{N→S})/2]$ ，表示每个信号组的平均队列长度。然后，与前一种情况不同，每个经历过的状态都包含在一个小的适当的子集中。也就是说，对训练信号控制模型的探索受到了严重的限制。

在大多数情况下，一个信号控制模型是用一个预定义的特定TOD的需求场景来训练的。在这种情况下，有限的探索导致模型获得了一个部分训练的策略，因为代理只学习了训练需求场景的潜在动态。那么，该模型可能无法适应不同TOD场景中的一些无经验的动态。在本文的其余部分中，我们证明了通过基于场景的探索训练的模型不能适应没有经验的需求场景的未被探索的交通状态。此外，我们提出了一种状态的图表示方法，以增强策略的可转移性。

Model construction

本章旨在构建一个模型，将状态表示为图形结构的数据，以建模由交集的空间结构产生的特征之间的相关性。该方法使用GNN对交通网络进行表示学习，使用端到端框架进行策略学习。我们首先将交通信号控制问题表示为具有基于图的状态表示的MDP。该方法利用GNN将每个链路的流量信息有效地处理为嵌入向量，同时考虑其拓扑关系，每个拓扑关系都是每个链路的信息压缩和上下文化状态表示。该方法依次使用嵌入向量来计算q值，以选择其中一个可能的动作。

MDP formulation

我们首先将交通信号控制问题表示为MDP，它提供了一个顺序决策过程的框架。具体公式如下所示，模型训练的框架总结如下（图2）。

图2...基于gnn的方法与DQN模型的比较。

State

关于State定义，我们只使用密度相关因素，这在相关研究中被广泛采用（阿布杜斯等，2011年1；阿卜杜海等，2003年2；埃尔-坦塔维等，2013年9；李等，2016年19；普拉珊斯和巴特纳加尔，2011年25；麦地那和贝尼科哈尔，2012年22）。例如，单个交集的状态可以表示为

其中 $d_i (t)$ 为一个信号周期（队列长度）内第 $i$ 个链接的排队车辆的最大数量。

Action

根据文献综述的结果，我们在行动定义中采用了“阶段持续时间”。一个交点的动作a (t)被定义为在一个信号周期C上的绿色时间比 $gt (t)∈[gt_{min}，gt_{max}]$ as

其中， $gt_{min}，gt_{max}$ 分别为最小的和最大的绿色信号时间。

Reward

我们使用吞吐量来定义奖励，因为它直接显示了信号控制的交叉的效率。此外，与延迟或旅行时间等其他措施相比，通过道路传感器更容易观察吞吐量。奖励r (t)的定义为

式中， $n_i (t)$ 为通过十字路口的车辆数， $f_i^s| _C$ 为一个信号周期内的饱和流量， $l_i$ 为链接 $i$ 的车道数。此外， $[\=d^{EW}，\=d^{SN}]：=[（d^{E→W}+d^{W→E}）/2，（d^{S→N}+d^{N→S})/2]$ 显示了每个信号组的平均队列长度。B是一个在每个方向上平衡队列长度的常数。如果两个方向之间的队列长度差异超过B，则奖励−1作为惩罚，相应的训练集将被终止。通过施加惩罚，代理可以学会避免导致网络中不平衡拥塞的决策。

State representation by graph

将目标交通网络的几何特征用一个图来表示，并将交通状态数据嵌入到该图中来表示目标MDP的状态。我们将进入交叉口的交通链路定义为图节点，将链路对之间的关系定义为图边（见图2）。

首先，全局状态被编码成一个图， $G ^{(0)} (t) =（V_t^{(0)}，E）$ ，其中V (0) t是该图的初始节点特征的集合，E是一组图的边。初始节点特征的初始化方法如下：

如果链路 $i$ 和链路 $j$ 在相同的信号组，则为类型 $e_{ij})=1$
如果链路 $i$ 和链路 $j$ 在不同的信号组中，则类型 $e_{ij})=2$

每个图边属于上述两种类型之一，在更新图边嵌入时，相同的边类型共享相同的参数。请注意，边的类型并不是一个依赖于时间 $t$ 的函数，因为一旦定义了信号组，图边的类型就不会随时间变化。

Representation learning by graph neural networks

利用消息传递GNN将图的初始节点特征处理为信息压缩的节点和目标图的边缘特征。单个更新由以下迭代计算步骤组成。

Step 1. Graph edge update (Message generation)

边更新步骤计算从源图节点到目标图节点的消息（边嵌入）。从图节点 $i$ 到 $j$ 的消息使用源图节点嵌入 $v^{(l−1)}_i$ 和目标图节点嵌入 $v^{(l−1)}_j$ ，使用以下公式进行计算：

其中， $R e LU (\cdot)$ 是一个修正的线性单位激活函数，而 $f(⋅;θ^k_m)$ 是一个用 $θ^k_m$ 参数化的边缘更新函数。

Step 2. Message aggregation

消息聚合步骤产生一个向量，它压缩一组到达目标图节点的消息。上一步中计算的消息（边缘嵌入）使用以下公式进行聚合：

类型为 $k、\=m^{k、(l)}_i$ 的图节点 $i$ 的聚合消息是来自类型为 $k$ 的图边的传入消息的总和。此步骤将一组相同类型的消息转换为单个向量。聚合的消息用于在图节点更新步骤中嵌入新节点。

Step 3. Graph node update

一个节点更新步骤使用前面的节点特征 $v^{(l−1)}_i$ 和聚合的消息， $k、\=m^{k、(l)}_i$ 计算一个新的节点嵌入，使用以下公式：

其中， $f(⋅|θ_v)$ 是一个用 $θ_v$ 参数化的节点更新函数。

第 $l$ 层GNN以 $G^{(l−1)}=（V^{(l−1)}(t)，E）$ 作为输入，并使用上述计算步骤（步骤1 ~ 3)返回更新的图 $G^{(l)}= (V^{(l)}(t)，E）$ 。在 $N_{GN}$ 层之后，GNN返回 $G^{(N_{GN})}(t)=(V^{(N_{GN})}(t)),E(t)$ ，其中 $V^{(N_{GN})}(t) = \{ V _1^{(N_{GN})}(t)、⋯、 V _4^{(N_{GN})}(t) \}$ 。我们的方法依次使用嵌入向量 $V^{(N_{GN})}(t) = \{ V _1^{(N_{GN})}(t)、⋯、 V _4^{(N_{GN})}(t) \}$ 来计算单个状态动作值，用于选择一个可能的信号动作。为此，所提出的方法近似于最优状态行动值 $Q^*(s (t),a (t))$ ，它表示给定一对状态和行动的最大预期未来累积奖励，以下近似如下：

其中， $V^{(N_{GN})}(t) = GNN（G ^{(0)} (t)；θ_{GN}）$ 。 Eq.(8)是基于q值是用q网络的参数 $θ_Q$ 来近似的假设。 Eq.(9)基于这样的假设，即流量状态图被处理成一组节点特征 $V^{(GN)}(t)$ ,使用GNN的参数 $θ_{GN}$ 。因此，流量状态图 $G^{ (0) }(t)$ 被处理成一组节点特征，然后连接起来并用于近似q值。

利用近似的q值，我们选择了一个具有∊-贪婪策略的动作。在∊-贪婪型中，信号控制代理选择一个固定概率的随机动作，0≤∊≤1，以平衡勘探和开发如下：

其中，ζ是从均匀分布的ζ U（0,1）中抽取的一个随机数

Model training

所提出的模型采用深度q学习的方法进行训练（Mnih et al.，2013）24。q函数的损失函数的计算方法为：

我们采用上述方程式训练了两组模型参数，GNN的 $θ_{GN}=（θ^k_m，θ_v）$ ，q网络的 $θ_Q$ 。这些参数以端到端方式进行优化，以最小化以下损失函数：

其中， $V^{(N_{GN})}(t) = GNN（G|；θ^k_m,θ_v）$ 是在图表示学习过程中使用GNN计算出的节点嵌入。列出表示学习和批评学习的学习参数，我们得到了要训练的总参数集 $=（θ^k_m，θ_v，θ_Q）$ 。我们将 $\=θ$ 表示为目标网络的一个参数，用于稳定训练过程。由于 $V^{NGN}(t)$ 是GNN的一个函数输出，我们可以根据每一组模型参数 $(θ^k_m，θ_v，θ_Q)$ 来计算上述损失函数的梯度

正在使用“等式”（12），采用梯度下降算法对一组模型参数进行训练；

其中，α是一个学习率。

Model validation with different travel demand scenarios

本章评估了所提出的GNN模型在五种具有不同交通量和旅行模式的测试场景上的性能，以研究其可转移性。引入了一种传统的没有图结构状态，而是具有向量值状态的DQN模型作为一种比较信号控制方法。此外，还考虑了两种简单的基于模型的方法：固定控制、最长队列优先（LQF）控制。首先，这些模型只用一个数据集进行训练（训练需求场景）。然后，用不同的没有经验的数据集（测试需求场景）对它们进行测试，而不需要额外的训练。

Experimental setup

本节详细包括了训练需求场景、测试需求场景、信号控制的比较方法和性能措施。

图3...仿真设置；(a)几何图形；(b)信号组。

Setup for microscopic traffic simulation

在实验中，我们使用了一个微观交通模拟SUMO（城市流动性模拟）。SUMO是一种广泛用于训练信号控制模型的开源交通仿真方法。在本实验中，我们将其范围限制在玩具网络上的单个代理问题，以排除其他影响，如多代理协调、路由。因此，我们假设在一个孤立的交点上有一个简单的几何形状，其中任何转弯（左转、右转、u转）都是不允许的，如图3a)所示。此外，我们还假设该网络具有均匀的几何性质，如（表2）所示。网络几何图形、车辆、汽车跟踪模型的其他参数使用默认值，可以在（Krajzewicz，2010）18中参考。虽然模型是在SUMO中假设的参数下进行训练的，但如果在现实世界中应用，有几种自适应方法可以将模型调整到真实数据。

在实验中，交通信号被设置为有两个主要阶段和两个黄色信号的辅助阶段，如图（图3b）所示。信号周期固定为90秒，相间有3秒的黄色信号。考虑到最小/最大绿时间，我们将动作空间离散为A = {0.2、0.4、0.6、0.8}。然后，每个动作值都可以唯一地定义信号分割，因为黄色信号和周期时间是固定的。此外，我们使用了一种特殊的旅行模式，该模式具有强偏置模式，南北方向4000vph，东西方向500vph作为训练需求场景。为了简单起见，每个旅行需求都是由均匀分布产生的。需求场景的其他参数也见（Krajzewicz，2010）18。

Test demand scenarios

我们定义了五种具有不同交通量和旅行模式的测试需求场景来评估模型的性能。每个场景都通过总交通量及其出行模式来区分。测试需求场景描述为（图4），我们使用+或−符号来表示旅行模式的方向和强度。第一个场景是与培训需求场景相同的基本场景。我们将基本场景表示为（“+ + +”，测试场景1），因为它沿南北方向有强烈的偏置旅行模式。

现在，我们定义了四个额外的测试需求场景，它们与训练场景有不同的流量动态。第二个和第三个测试场景被设计为具有与基本场景相似的旅行模式，以便调查未探索但相似的交通状态下的模型行为。这些场景保持了总交通量和旅行模式的主要方向，这与基本场景相同。然而，他们有不同程度的偏见强度。第二种方案的南北方向的偏差略有减弱，为3600vph，东西方向为900vph。另一方面，第三种方案的南北方向的偏压更加减弱，为2000vph，东西方向的偏压为1000vph。因此，我们将第二个场景描述为（“++”，测试场景2），而将第三个场景描述为（“+”，测试场景3），如图（图4）所示。

接下来，第四个测试场景保持总交通量，但与旅行模式的方向相反

也就是说，在这种情况下，主流变成了东西方向。该方案的旅行需求为南北方向为500vph，东西方向为4000vph，与基本方案完全对称。因此，我们将第四个场景表示为（‘−−−’，测试场景4）。最后，与之前的情景相比，第五种情况具有随机旅行需求模式。此外，交通量也随时间而变化，且生成率保持不变。在早期阶段，轻型交通量（1030vph）在每个方向上随机分布。然而，在后期，交通量增加到7300vph，这个交通量是为每个方向随机生成的。我们将第五个场景描述为（“0”，测试场景5），因为与其他场景相比，它没有特定的旅行模式。

Comparison control methods and performance measures

将所提出的GNN模型与其他控制方法的性能进行了比较，以评价模型的效率。首先，我们构建了一个DQN模型，作为基线，使用相同的交通变量的状态、行动和奖励与GNN模型。但是，它并不将状态表示为图结构的数据，而是直接将队列长度信息带到状态向量中，就像在等式中一样 (14).

此外，DQN模型和GNN模型的动作值都以贪婪的方式从每个预先训练过的模型中选择动作值。接下来，我们考虑了两种简单的基于模型的控制方法：固定控制和最长队列优先（LQF）控制。在每个实验中，固定控制使用绿色分割值，而不考虑交通状态的变化。在每个实验中，固定控制的动作值从A中选择，A的表现最差，确定了评价的下界。另一方面，LQF控件动态地更改操作值以放松最长的队列，如等式中所述 (15).

在这里插入图片描述最后，我们使用四种类型的性能衡量标准加上定义的奖励来评估每种控制方法的控制效率：最大队列、平均速度、总旅行时间和总延迟。最大队列测量在一个信号周期内排队车辆平均数量的最大值。平均速度测量每个链路的空间平均速度的平均值。总行驶时间和总延迟度量网络中每一辆车的总行驶时间和延迟时间，以评估网络级别的性能。

Model validation results

各模型在测试需求场景下的验证结果总结为（图5）和（图6）。数值结果详见（附录1）。首先，关于已定义的奖励的结果，即吞吐量，见（图5）。基于rl的模型（DQN，GNN）在基本场景（+ + +）中比其他控制方法实现了更高的吞吐量，因为这些模型都经过训练，以在此场景中最大限度地提高回报（吞吐量）。然而，当DQN模型遇到其他没有经验的场景（+）、（−−−）和(0)时，DQN模型的吞吐量就会降低。另一方面，即使在没有经验的场景下，GNN模型也比其他控制方法保持更高的吞吐量。

接下来，研究了其他性能指标的验证结果，如（如图6）所示。正如预期的那样，基于rl的模型在基础场景上（+++）的性能优于其他控制方法，这与文献中出现的结果一致。类似地，GNN模型在基本场景（+ + +）上显示出比固定和LQF控件更好的性能。另一方面，LQF控制不可避免地会经历一些不必要的队列来改变控制动作值，因此它的性能相对比基于rl的控制更差。固定控制通过引导网络进入溢出状态，显示了最差的性能，因为它显示了在每个场景中最大排队车辆数量的最高值。

在这里插入图片描述图5…对已定义的奖励（吞吐量）的验证结果。

在这里插入图片描述图6…针对测试需求场景的验证结果。

在这里插入图片描述图7…基于gnn的模型的可转移策略的描述。

然而，当在其他测试场景中遇到没有经验的流量状态时，DQN模型的性能会下降。虽然DQN模型适应了第二个测试场景（+ +）的某些流量状态，但在第三个测试场景（+）中，它变得较差。在第三个测试场景中，最大队列数增加，平均速度降低。因此，DQN模型的网络级性能严重下降。此外，DQN模型不能适应第四个测试场景（−−−）的反向旅行模式，并且在第五个测试场景(0)的随机模式中显示了类似的结果。

另一方面，GNN模型在每个测试需求场景中都表现出比其他控制方法更好的性能。此外，GNN模型即使遇到没有经验的需求场景，也能保持较高的性能，而DQN模型则无法适应。GNN模型的新颖性出现在第四个测试场景中，它将基本场景（+ + +）的旅行模式反转为（−−−）。GNN模型能够适应第四种场景中的交通状态，这在拓扑上等于基本场景（+ + +），因为它学习了由交叉口的空间结构产生的特征之间的关系。因此，我们可以得出结论，所提出的图表示方法使模型获得可转移策略，使其比基于向量值状态的传统DQN模型更好地适应无经验状态。

Conclusion

本研究的贡献可以总结如下：

本研究是第一个识别对信号控制模型训练有关键影响的有限探索问题。
我们提出了一种新的方法，通过使用状态的图表示并通过gnn对其进行训练来提高策略的可移植性。

首先，在交通模拟中，当使用一个预定义的需求场景来训练一个模型时所产生的限制性探索问题，导致该模型获得了一个部分训练的策略。本文表明，基于向量值状态的传统RL模型的部分训练策略不能适应一些没有经验的旅行模式的交通状态。为此，我们提出了一种基于图的方法，将状态变量表示为图结构的数据，并使用GNN对其进行训练。在五种不同的测试场景下进行了实验，研究了其可转移性，并比较了控制性能。结果表明，所提出的GNN模型获得了一个可转移的策略，从而能够更好地适应无经验的交通状态，而DQN模型则失效。

本研究的研究结果见（图7）。首先，DQN模型和GNN模型都是在交通模拟中使用预定义的需求场景进行训练的。然后，由于基于场景的探索，两种模型都在搜索空间的有限区域内进行探索。（图7）中的虚线区域表示勘探区域。基于向量值状态的DQN模型由于获得了一个部分训练的策略，因此无法适应没有经验的数据。另一方面，GNN模型比DQN模型获得了一个可转移的策略，并更好地适应没有经验的数据，因为它学习了交集空间结构产生的特征之间的关系。因此，如（图7）所示，GNN模型比DQN模型覆盖了更宽的搜索空间区域。

然而，仍然存在一些局限性和未来的工作来改进研究。在本研究中，我们只用一个虚拟的需求场景来训练模型，以精确地研究策略的可转移性。虽然基于图的方法有效地提高了策略的可转移性，但仍有一些GNN模型无法适应的无经验的状态，如（图7）所示。因此，确定一组合适的训练需求场景以获得可靠的信号控制模型作为未来的工作。此外，还应扩大信号控制的范围。虽然本研究假设在简单孤立交叉口上存在信号控制问题，但在未来的研究中应考虑多相位信号控制问题和多智能体控制问题。

在这里插入图片描述

参考文献

1 Abdoos, M., Mozayani, N., Bazzan, A.L., 2011. Traffic light control in non-stationary environments based on multi agent Q-learning. In: 2011 14th International IEEE conference on intelligent transportation systems (ITSC). IEEE, pp. 1580–1585.
2 Abdulhai, B., Pringle, R., Karakoulas, G.J., 2003. Reinforcement Learning for True Adaptive Traffic Signal Control. J. Transp. Eng. 129 (3), 278–285. https://doi.org/ 10.1061/(ASCE)0733-947X(2003)129:3(278).
3 Arel, I., Liu, C., Urbanik, T., Kohls, A.G., 2010. Reinforcement Learning-Based Multi-Agent System for Network Traffic Signal Control. IET Intel. Transport Syst. 4 (2), 128–135. https://doi.org/10.1049/iet-its.2009.0070.
4 Brockman, G., Cheung, V., Pettersson, L., Schneider, J., Schulman, J., Tang, J., & Zaremba, W., 2016. Openai gym. arXiv preprint arXiv:1606.01540.
5 Casas, N., 2017. Deep deterministic policy gradient for urban traffic light control. arXiv preprint arXiv:1703.09035.
6 Chang, J., Bertoli, B., Xin, W., 2010. New signal control optimization policy for oversaturated arterial systems. Transp. Res. Board.
7 Chu, T., Wang, J., Codeca, L., Li, Z., 2019. Multi-agent deep reinforcement learning for large-scale traffic signal control. IEEE Trans. Intell. Transp. Syst. https://doi. org/10.1109/tits.2019.2901791.
8 Diakaki, C., Papageorgiou, M., Aboudolas, K., 2002. A multivariable regulator approach to traffic-responsive network- wide signal control. Control Eng. Pract. 10 (2), 183–195. https://doi.org/10.1016/S0967-0661(01)00121-6.
9El-Tantawy, S., Abdulhai, B., Abdelgawad, H., 2013. Multi-Agent Reinforcement Learning for Integrated Network of Adaptive Traffic Signal Controllers (MARLINATSC): methodology and large-scale application on downtown Toronto. IEEE Trans. Intell. Transp. Syst. 14 (3), 1140–1150. https://doi.org/10.1109/ ITSC.2012.6338707.
10El-Tantawy, S., Abdulhai, B., Abdelgawad, H., 2014. Design of reinforcement learning parameters for seamless application of adaptive traffic signal control. J. Intell. Transp. Syst. Technol. Plann. Oper. 18 (3), 227–245. https://doi.org/10.1080/15472450.2013.810991.
11Ernst, D., Glavic, M., Capitanescu, F., Wehenkel, L., 2008. Reinforcement Learning versus model predictive control: a comparison on a power system problem. IEEE Trans. Syst. Man Cybern. B Cybern. 39 (2), 517–529. https://doi.org/10.1109/TSMCB.2008.2007630.
12Gao, J., Shen, Y., Liu, J., Ito, M., & Shiratori, N., 2017. Adaptive traffic signal control: Deep reinforcement learning algorithm with experience replay and target network. arXiv preprint arXiv:1705.02755.
13Gartner, N.H., 1983. OPAC: A demand-responsive strategy for traffic signal control. Transp. Res. Board.
14Genders, W., & Razavi, S., 2016. Using a deep reinforcement learning agent for traffic signal control. arXiv preprint arXiv:1611.01142.
15Hunt, P.B., Robertson, D.I., Bretherton, R.D., Royle, M.C., 1982. The SCOOT on-line traffic signal optimisation technique. Traff. Eng. Control 23 (4).
16Henry, J.J., Farges, J.L., Tuffal, J., 1984. The PRODYN real time traffic algorithm. Control Transp. Sys. 305–310.
17Jeon, H., Lee, J ., Sohn, K., 2018. Artificial intelligence for traffic signal control based solely on video images. J. Intell. Transp. Syst. Technol. Plann. Oper. 22 (5), 433–445. https://doi.org/10.1080/15472450.2017.1394192.
18Krajzewicz, D., 2010. Traffic simulation with SUMO–simulation of urban mobility. In: Fundamentals of Traffic Simulation. Springer, New York, NY, pp. 269–293.
19Li, L., Lv, Y., Wang, F.Y., 2016. Traffic signal timing via deep reinforcement learning. IEEE/CAA J. Autom. Sin. 3 (3), 247–254. https://doi.org/10.1109/ JAS.2016.7508798.
20Liang, X., Du, X., Wang, G., Han, Z., 2019. A deep reinforcement learning network for traffic light cycle control. IEEE Trans. Veh. Technol. 68 (2), 1243–1253. https:// doi.org/10.1109/TVT.2018.2890726.
21Lin, Y., Dai, X., Li, L., & Wang, F. Y., 2018. An efficient deep reinforcement learning model for urban traffic control. arXiv preprint arXiv:1808.01876.
22Medina, J.C., Benekohal, R.F., 2012. Traffic signal control using reinforcement learning and the max-plus algorithm as a coordinating strategy. In: 2012 15th International IEEE Conference on Intelligent Transportation Systems. IEEE, pp. 596–601.
23Miller, A.J., 1963. A computer control system for traffic networks. Transp. Res. Board.
24Mnih, V., Kavukcuoglu, K., Silver, D., Graves, A., Antonoglou, I., Wierstra, D., & Riedmiller, M., 2013. Playing atari with deep reinforcement learning. arXiv preprint arXiv:1312.5602.
25Prashanth, L.A., Bhatnagar, S., 2011. Reinforcement Learning with Function Approximation for Traffic Signal Control. IEEE Trans. Intell. Transp. Syst. 12 (2), 412–421. https://doi.org/10.1109/TITS.2010.2091408.
26Sen, S., Head, K.L., 1997. Controlled Optimization of Phases at an Intersection. Transport. Sci. 31 (1), 5–17. https://doi.org/10.1287/trsc.31.1.5.
27Sims, A.G., Dobinson, K.W., 1980. The sydney coordinated adaptive traffic (SCAT) system philosophy and benefits. IEEE Trans. Veh. Technol. 29 (2), 130–137.
28Thorpe, T.L., 1997. Vehicle Traffic Light Control Using Sarsa. Online 1–41.
29Vincent, R.A., Young, C.P., 1986. Self-Optimizing Traffic Signal Control Using Microprocessors: The TRRL “MOVA” Strategy for Isolated Intersections. Traffic Eng. Control 27 (7–8), 385–387.
30Wang, Y., Yang, X., Liu, Y., Liang, H., 2018. Evaluation and application of urban traffic signal optimizing control strategy based on reinforcement learning. J. Adv. Transport. https://doi.org/10.1155/2018/3631489.
31Watkins, C.J.C.H., 1989. Learning from delayed rewards. Ph. D. thesis, Cambridge Univ.
32Webster, F. V., 1958. Traffic signal settings, Road Research Technical Paper.
33Wiering, M.A., 2000. Multi-agent reinforcement learning for traffic light control. In: Machine Learning: Proceedings of the Seventeenth International Conference (ICML’2000), pp. 1151–1158.
34Zhou, J., Cui, G., Hu, S., Zhang, Z., Yang, C., Liu, Z., Sun, M., 2020. Graph neural networks: a review of methods and applications. AI Open 1, 57–81.