【论文阅读】Adaptive Traffic Control with Deep Reinforcement Learning: Towards State-of-the-art and Beyond

Octobersz

已于 2022-06-13 15:23:31 修改

阅读量556

点赞数

分类专栏：强化学习智慧交通文章标签：智慧城市

于 2022-06-13 11:43:27 首次发布

强化学习智慧交通专栏收录该内容

1 篇文章 0 订阅

订阅专栏

使用深度强化学习的自适应交通控制：迈向最先进的水平和超越

摘要： 标题在这项工作中，我们利用强化学习（RL）研究了自适应数据引导的交通规划和控制。我们从经典方法的简单使用转向深度RL社区的最先进技术。我们在算法中嵌入了一些最新的技术，这些技术改进了用于离散控制的原始深Q网络（DQN），并讨论了与交通有关的解释。我们提出了一种新的基于DQN的交通控制算法（称为TC-DQN+），作为一种快速和更可靠的交通决策工具。我们引入了一种新形式的奖励函数，并通过与传统交通控制方法的比较，用说明性的例子进一步讨论了该函数。
自适应、TC-DQN+、奖励函数

1. 引入 introduction

交通和城市交通是每个大城市基础设施的骨干，对健康、环境成本和商业有直接影响。例如，仅在2018年，美国人由于拥堵平均损失了97个小时，花费了近870亿美元–每个司机几乎要花费1348美元[1]，而且需求还在稳步上升。因此，几十年来，人们一直试图将优化和计算能力融入交通管理和控制[2]。此外，随着前所未有的计算能力的出现，最近研究已经观察到利用优化和机器学习方法的显著增加。

虽然早期的交通信号控制优化工具（如SCOOT[3]，SCATS[4]）仍在全球几个大城市中使用，但它们在实践中需要手动设计信号计划，因此是非适应性的。另一方面，RL方法在交通信号的顺序决策中具有自适应的特点，与交通领域的经典策略相比，已经显示出可喜的进展。然而，由于基本的缺陷，该方法还没有在实际场景中正式行使。例如，在真实世界的例子上训练机器学习算法是危险的、昂贵的和耗时的；因此，RL模型主要在模拟中训练，而模拟往往缺乏物理精度。此外，与具有有限可能状态的领域（例如，雅达利游戏）不同，对高度复杂的环境（如交通）采用经典方法可能过于雄心勃勃。

在这项工作中，我们通过以下方式关注这些问题：（1）为我们的模拟环境配备使用真实世界开源数据创建的交通场景，以及（2）结合深度RL的前沿技术来提高我们算法的性能。特别是，受rainbow算法[5]的启发，我们采用了DQN的最新进展，包括Double Q-Learning、Dueling Networks和Prioritized Experience Replay（PER）。我们还利用了最近关于RL中的新型探索方法以及奖励值的分布形式的研究，并展示了每种技术在多种交通场景中的有效性。此外，我们处理了一种新的离散奖励函数形式，作为分布式RL技术（对很少发生的事件，如非常平稳或高度拥挤的交通）的额外要求。我们的经验观察表明，在奖励函数中添加定制的启发式方法可以积极地影响性能。最后，我们提供了说明性的案例研究，其中我们的方法的好处以及与自适应交通信号控制（ATSC）中的一些传统架构的比较，在遵循真实交通场景的模拟中得到了证明。图1给出了我们的方法背后的理念示意图。
图1: 我们提出的算法示意图。
本文的其余部分组织如下。第2节回顾了相关文献。在第3节，我们提供了一些背景。第4节定义了问题的表述，然后是第5节的实验结果。第6节讨论了结论和未来的方向。

2. 相关工作 related work

历史上，交通控制一直是科学和工程领域的现场应用之一，因为城市拥堵和污染导致了巨大的费用、健康问题和自然资源的耗损。此外，交通规划的研究具有很强的限制性，即新提出的方法应该包括：（1）计算效率高的实现，以及（2）没有不切实际的假设。这方面的工作可以追溯到20世纪80年代，随着MAXBAND[6]等离线交通灯计时方法的出现，该方法通过多计时控制的自我调节过程来选择方案，反过来，在SCOOT[3]和SCATS[4]等方法中利用参数的动态调整进一步改进。然而，这些产品适用于区域性交通控制，在许多情况下需要大量的人工干预。下一代动态交通控制在随后几年出现（如RHODES[7]），以解决时间变化的交通流的在线控制。这使得该方案更加现实，但同时在计算上也非常昂贵。总的来说，上述方法面临着基本的缺陷，包括简化交通约束和缺乏对实际交通波动的及时反应[2, 8]

快进几十年，所谓的大数据革命已经导致数据驱动控制和机器学习的思想融入交通研究。特别是，RL由于其无模型的特性，已经被广泛用于解决交通控制问题[9, 10]。在深度RL–DQN[11]取得突破后，其结果变得更加令人期待。此后，ATSC的文献主要集中在挑选什么类型的RL算法1 [12]以及如何定义RL参数–即状态、奖励和行动--以进一步增强这些算法[13]。然而，交通控制文献中较少涉及RL的最新进展。有研究表明，这些技术的整体组合使Atari游戏的几个实例的性能得到了明显的提高[5]。同样地，我们表明，这种组合加上RL问题定义中的启发式方法导致交通控制场景的收敛性大大改善。这类方法包括但不限于：Double Q-Learning[14]、Prioritized Replay[15]、Dueling Networks[16]、NoisyNets[17]和分布式RL[18]。TC-DQN+是一项努力，以显示这些组合如何有助于ATSC这样一个特殊情况。

3. 背景

3.1 RL符号记法和背景

一个RL问题被定义为一个马尔科夫决策过程（MDP）元组< S, A,T, r, γ >，其中参数分别表示状态集、可能的行动集、状态转移函数、奖励和折扣系数。在时间步骤t，环境向智能体提供观察（状态）st∈S，而智能体选择一些行动at∈A。这种相互作用引起了状态转移T：S×A→S，定义为 T（s，a，s）=P（st+1=s|st=s，at=a）作为采取行动的结果，环境提供了相应的奖励r：S×A→R，在状态-行动对（s，a）定义为rt（s，a）=E[Rt|st=s，at=a]，以及结果状态st+1，其中Rt表示一步的奖励。我们假设一个具有常数γ∈(0, 1)的偶发性MDP，智能体的目标是最大化预期收益在这里插入图片描述通过迭代试错过程找到最优策略π∗。该RL智能体学习状态-行动价值函数（Q-function）Qπ(s, a) = Eπ[Gt|st = s, at = a]，在时间t依据策略π采取了行动a后。最优值Q∗(s, a) = maxπ Qπ(s, a) 满足s∈S和a∈A的贝尔曼最优方程。
在这里插入图片描述

3.2 深度Q网络和改进

与经典的RL方法不同，DQN采用深度神经网络（NN），以非线性方式近似Q函数，使RL适用于高维问题[11]。此外，该工作还使用了另外两项关键技术：使用经验重放缓冲器来消除数据的相关性，还整合了一个更新频率较低的目标网络，以防止损失的时差（TD）项中的Q值波动，定义为：
在这里插入图片描述
其中θ包含神经网络的参数， TDtarget = rt(s, a)+γ maxa Q(s, a; θ-)
其中θ-表示θ的周期性拷贝，D是（潜在的时间变化的）基础分布。尽管最初取得了成功，但由于探索（ε-贪婪）和神经网络结构不佳，原始的DQN算法在许多情况下缺乏稳定和快速收敛。在过去的几年里，已经有许多独立的尝试来改善DQN的性能。例如，Double Q-Learning[14]解决了(1)中最大化步骤中的高估偏差问题，修改后的TDtarget为：

在这里插入图片描述
关于经验重放，PER[15]是为那些具有较高TD-错误的RL转换分配更高的优先级。然后，新的数据被插入到具有最高优先级的重放缓冲区中，提供对更多最新数据的偏爱。RL的另一个缺点是，学习回报的期望值Gt可能是有限制的，因为多模态和类似行动（值）的方差可能不会被保留下来。多年来，人们一直在研究这个问题[19]，随后产生了学习收益的分布而不是期望值的想法，被称为分布式RL[18]。最后，由于NN结构的修改，也有一些改进。也就是说，Dueling网络结构[16]将价值函数和优势函数的学习流分开。这为学习提供了更多的灵活性，即当价值函数在某些特定状态下占上风时，多余的行动就变得不那么有影响力了。此外，NoisyNets[17]通过向一些隐藏层添加噪声来修改NN结构，而与 "贪婪 "不同的是，噪声的参数在训练期间由模型本身调整。这允许智能体决定何时以及以何种比例在NN参数中添加不确定性，使探索更有效率。总的来说，本节介绍的方法在加速训练和收敛方面比原来的DQN有了很大的改进。我们将在ATSC中修改和利用这些技术。

4. 问题的表述 problem formulation

4.1 RL 环境和智能体

RL环境由一个给定的十字路口表示，包括具有预定义概率通勤的车辆（图2）。包含整个交通法规的环境作为一个框架，向RL智能体提供反馈。我们在 “城市交通模拟”（SUMO）上训练我们的算法，这是一个开源的、可移植的交通模拟器[20]。交通场景是在SUMO中生成的，并根据真实世界的数据和观察结果进行调整（见第5节）。为简洁起见，下面的字母N、E、S和W分别表示北、东、南和西，X→Y表示从X向Y方向（X ↔ Y表示两个方向）。

RL的智能体是交通灯的决策者，其行动决定了信号灯的相位和周期长度。作为回应，智能体收到奖励，环境被转移到下一个迭代。RL状态、行动和奖励的适当选择对任何RL算法都是至关重要的。我们描述了我们的选择以及这些参数的交通相关解释。
图2：RL环境的快照。蓝色条带显示传感器的可探测范围

动作：动作的集合，A，包括可用的交通信号灯模式（图3）。信号模式被假定为非连续的，也就是说，智能体可以在每个时间步长自由选择任何模式（行动）a∈A。我们为每个绿灯期设定一个最短的时间，Tg，以避免交通灯的零星闪烁。智能体可以自由地坚持目前的阶段，或进入一个固定的黄色阶段，Ty，然后是一个全红的时间间隔，Tr，这些都是预定义的，以保持交通顺畅。（在Tg的选择上有一个权衡，较低的值鼓励更多的灵活性，而高的值则导致更多的学习的稳定性。）总的来说，我们算法的性能对整数Tg、Ty和Tr非常敏感。
图3：一个给定的交叉口的动作集合的例子深绿色意味着向交叉路口车道让行
状态：时间t的状态，st∈S，是一个实数向量，包含了从环境中收到的信息。通常情况下，一些测量元素（基于现有的传感技术）被整合起来形成状态向量（如总等待时间、队列长度等[21]）。然而，过度应用状态的各种测量方式的有用性仍然值得怀疑[22]。在我们的分析中，我们将状态设定为每条车道上距离交叉口d以内的车辆总数（图2），并在每次行动后收集Tg连续帧的这些整数。这些帧的集合和一个决定当前阶段的单次关键元素（我们在使用独热编码时略微滥用了符号，并选择了一个标量（而不是一个矢量），因为在我们的设置中，动作空间不大。）被串联起来，形成st∈Nn {0}其中n = |A|Tg+1请注意，这样的定义隐含了车辆的速度，而不需要增加额外的维度，从而降低了复杂性，加快了学习速度。

奖励：奖励函数，rt，是RL算法设计中的一个关键部分，因为它是评估智能体性能质量的反馈指标。交通控制中常见的奖励函数被定义为排队长度、等待时间、吞吐量等元素的组合，大多伴随着附带的因素（信号改变的频率、事故的避免等）[23, 24]。然而，以这种方式定义奖励函数，往往不是直接以最小化车辆在交叉口的总行驶时间为目标。（由于优化步骤是在每个动作之后立即发生的，而且在学习过程中忽略了偶发的顺序效应。）此外，这种奖励对每个因素的权重高度敏感，这使得智能体没有能力区分不同的学习措施[13]。
我们采取了一种新的方法，将状态-动作对（s，a）的奖励函数定义为：
在这里插入图片描述
基于行动的奖励，ra，捕捉到Tg帧的动作a所对应的奖励，定义为：

其中wkt是一个二元变量，表示车辆k在时间t是否在交叉口等待，ta是采用行动a的时间步长，Na是在[ta, ta + Tg]的区间内通过交叉口的车辆总数。术语1{Nt=0}被认为是在没有车辆等待的情况下对相位转移的惩罚，以抑制多余的行动。此外，术语1{ta≠ta }表示两个连续的信号相位是否相等，被认为是为了反对交通灯的零星闪烁。变量p1、p2和p3是惩罚权重。总的来说，定义基于动作的奖励（如公式（5））是有利的，因为它（1）使智能体有一个衡量哪些行动会导致更高的奖励，（2）自然地解释了信息的时间方面，如 “车辆的速度”，和（3）避免了不必要的行动。

情节性奖励，re，是在每个情节结束时评估成功或失败的一个衡量指标（T表示一个情节的长度）。然而，为了反对二元终端奖励（在剧情结束后，根据输赢情况来评估表现–例如在雅达利游戏中。），我们定义了。
在这里插入图片描述
其中是Sigmoid函数，图4 情景奖励函数的例子是相应情节中所有车辆的总等待时间，Ne是情节e中所有通过路口的车辆的总等待时间，参数a、η、ζ和b取决于特定的交通情景。与基于行动的奖励不同，情节性奖励抓住了整个情节e中 "行动序列 "的影响。如图4所示，我们定义re的方式导致了一个高奖励区域，因为整个情节中车辆总数的等待时间较低（绿色）。随后是一个从高奖励到低奖励的过渡区间（黄色）。这个区域的陡峭程度可以用η来调整。（在复杂的环境中，连续的每个时刻奖励功能的想法变得更加关键，因为在这种环境中很难获得具体的最后奖励）最后，这个过渡引起了一个稳定区域（红色），在这个区域中，奖励的价值与等待时间相似。
图4 关于阶段性奖励函数的一个例子 re。

4.2 神经网络的结构 The Neural Networks Structure

我们使用一个多层的NN来估计Q函数。图5描述了我们提出的算法中NN的结构示意图。网络的输入层包含来自传感器的数据，输出层为A中的动作赋值。如第4.1节所述，输入层和输出层分别包含n = |A|Tg+1和|A|神经元。输入层之后是两个隐藏的全连接层，其中有nfc个神经元。在我们的NN设置中，非线性近似是由整流线性单元（ReLU）来激活的。没有图5中的虚线框，原始的DQN算法就实现了。我们使用我们在第3.2节中介绍的工具来进一步加强该机械。

总之，我们把网络分成价值流和优势流，每一个都容纳了两个具有nnl神经元的隐藏噪声层。价值（上层）流的结果是一个离散的概率分布，其中类似的分布被分配给优势（下层）流的每个行动。这两个流的输出被加起来到最后的输出层。然后，输出向量被插入（2）(TD算法)中的损失函数，通过反向传播更新NN的权重。与DQN一样，在每个优化步骤中，从具有指定内存大小的优先重放缓冲器中获取迷你批次的数据。关于重现算法的说明见第7节。
图5 我们提出的NN的结构。虚线框中包含对DQN网络的修改

5. 实验 experiments

5.1 环境设计 Environment Design

在这一节中，我们提供了实验结果并与基线进行了比较。我们考虑了三种环境，它们基于行动的数量和状态空间的复杂性而有所不同。这些环境的灵感来自于旧金山湾区的真实交叉口（图6）。与真实数据（来自于[26]）相结合的亲身观察结果被赋予SUMO，环境超参数被平均到其真实值上。调查的结果然后反映到车辆生成率以及交叉口的物理属性，如最小相位周期（Tg、Ty和Tr）、车道数、路权等，在模拟环境中。同时，为了表示交通流的随机性，我们定义。
在这里插入图片描述
图6：案例研究由于S的复杂性和可能行动的数量不同，案例也不同。

其中，随机变量X表示从二项分布B产生的交通流率，每集产生车辆的概率为Pe。我们进一步假设Pe是一个从区间[l，h]中均匀采样的随机变量，以便在训练阶段随机地执行从低（l）流量到高（h）流量的整个交通流量范围。我们的实证结果表明，这种随机性提高了我们的模型对更多交通场景的可推广性。

5.2 结果 result

我们的实验结果有三个方面。首先，我们提供训练轨迹以强调算法收敛性的改善。其次，我们在三个不同的合成场景中测试我们的方法，以显示我们的算法在面对不一致的交通模式时的通用性。最后，我们提供了**消融图（控制变量法）**来定性地实现每种技术的贡献（来自第3.2节）。我们将我们的结果与原始的（vanilla）DQN以及其他两种标准的经典方法进行了比较：（1）固定时间（FT）[27]，利用预先指定的阶段周期–主要用于稳定的交通；（2）自组织交通灯（SOTL）[28]，当特定车道上的等待车辆数量超过一些人工调整的阈值时，自组织交通灯发挥作用。

1 收敛结果：我们在所有三种环境下对两种不同的交通流训练我们的模型。首先，我们在正常的交通模式下进行训练，然后增加流量，使环境更加复杂，从而使学习更加投入。图8描述了基于RL智能体训练的次数（number of episodes）的车辆总等待时间。透明的红色和蓝色块状物分别显示了DQN和TC-DQN+在每个事件中的真实总等待时间，粗体曲线表示相应的（衰减的）加权平均值。此外，FT和SOTL的（平均）等待时间也被显示出来进行比较。学习曲线的单调性表明RL算法一般都具有适应性（这也是FT和SOTL等方法所缺乏的）。然而，TC-DQN+的行为与DQN轨迹之间的巨大差距–特别是在前一万个事件中–证明了对DQN改进的有效性。请注意，随着环境复杂性和交通强度的增加，差距也在增加。特别是，表1给出了DQN和TCDQN+之间的时间比较。条目显示了T=400s的∆ΩT。例如，在一个相对较大的交叉口（情况3），对于正常交通，可以节省大约200s的总行驶时间。对于平均30辆汽车在这个交叉口上下班，T=400秒，这大约是6s/辆的节省时间。（假设这可以平均每天节省2分钟，每辆车大约可以节省2×365/24≈30小时/年。考虑到2018年美国交通中每位司机的总等待时间为97 小时的美国交通总等待时间[1]，这种改善可能是巨大的。）
图8 并行训练组件
在这里插入图片描述
值得注意的是，虽然我们也考虑的标准性能指标是所有车辆的 “总等待时间”（ΩT），但不应忽视RL算法的变化（即真实等待时间与加权平均值的偏差）的减少。这些变化有助于在面对未见的交通情况时了解算法的稳健性。如图8所示，TC-DQN+的变化享有快速收敛，而vanilla DQN在长期内随着贪婪探索ε-greedy的衰减而显示出有规律的不可预测的行为。图9显示了等待时间最小化与探索的相关性，这导致了行动的收敛和奖励收集过程的并行（在案例3中对正常交通场景进行了采样）该图证实了有效探索（由于NoisyNets）和奖励收集（由于分布式RL）的关键作用。
图9 消融实验
2. 测试案例：为了测试我们模型的性能，我们提供了三个合成场景的测试案例，定义如下。

场景一：E ↔W的流量高于S ↔N。
场景二：S ↔N的流量高于E ↔W。
情景三：所有方向的流量随机相等。
测试案例的结果总结在表2中。如表所示，TC-DQN+在大多数流量场景和环境中都优于其他算法。结果表明，我们的算法在交通模式中表现最好，其中一对平行方向（例如，S ↔ N）比交叉路线（E ↔ W）高度拥挤，在某些情况下，改进是实质性的。例如，对于环境3的交通情景1，当交通高度集中在E ↔W上时，与第二好的规划者（FT）相比，ΩT总共可以减少近2小时。此外，TC-DQN+在每一种情况下都超过了DQN，验证了纳入NN结构中的技术的积极贡献。最后，当流量在每个方向随机产生时，FT在两种情况下胜过TC-DQN+（场景3）。这部分是由于方程（4）中定义的奖励函数的形式，因为对于复杂的环境，ra和re可能无法清楚地转化为智能体的可解释的措施（例如，案例3的交通场景）。我们可以预见，用更多的理论基础来完善奖励函数可以解决这个缺点。这将作为一个未来的方向来解决。

3.消融图：如第4.2节所述，我们的方法是由RL界的几种最新技术组合而成的。因此，认识到这些方法中的每一种对最终性能的潜在贡献是有启发性的。图9总结了比较结果，展示了消融变体之间总等待时间的中位数（结果是在情况2case2下对正常流量的采样）。最明显的改进是由于分布式RL和double Q learning，没有这两种技术，其性能接近DQN。此外，PER在提升支持有效使用数据的性能方面有相当大的作用。此外，虽然NoisyNets对长期性能或我们的算法没有贡献，但它能在少于8000次的情况下实现收敛。最后，这些技术的贡献部分可能根据环境的复杂性而变化。例如，在本节提供的例子中，由于|A|不大（|A|=2），Dueling Q-Learning的贡献并不明显。在环境3的情况下，这种情况可能会改变，因为环境3的|A|=4，NN的优势流更加明显。

6. 总结 conclusion

在本文中，我们研究了一种新的方法，将深度RL整合到不同城市交叉口的交通信号控制中。我们训练了我们的模型TC-DQN+，并在三个不同的交叉口进行了测试，从最简单的到最复杂的，并根据真实数据和现场观察生成交通场景。我们的结果表明，与以前采用的使用vanilla DQN的方法相比，性能有明显的改善。

我们承认，目前的工作只是向更快、更可靠的智能交通控制迈出了一步，可以在许多方向上加以改进。一个潜在的未来路线是进一步研究底层NN的结构，以获得更准确的交通行为的非线性近似。此外，还有空间将我们的建议与经典的ATSC方法结合起来，以便为规划策略提供更好的理论基础。最后但并非最不重要的是，通用性对于数据驱动的交通计划至关重要。因此，潜在的下一步是使TC-DQN+对不可预测的现象（如路障、建筑、事故等）更加强大。