【时空图卷积网络】交通预测的深度学习框架STGCN

Spatio-Temporal Graph Convolutional Networks: A Deep Learning Framework for Traffic Forecasting

IJCAI 2018

摘要

及时准确的交通预测对城市交通控制和引导至关重要。由于交通流的高度非线性和复杂性,传统的预测方法不能满足中长期预测任务的要求,往往忽略了交通流的时空依赖性。本文提出了一种新的深度学习框架——时空图卷积网络(STGCN)来解决交通领域的时间序列预测问题。我们没有使用常规的卷积和循环单元,而是在图上表达问题,并使用完整的卷积结构构建模型,这使得训练速度更快,参数更少。实验表明,我们的模型STGCN通过建模多尺度交通网络,有效捕获了全面的时空相关性,并在各种真实交通数据集上始终优于最先进的基线。

1 介绍

交通在每个人的日常生活中起着至关重要的作用。根据2015年的一项调查,美国司机平均每天开车时间约为48分钟。在这种情况下,准确的实时交通状况预测对道路使用者、私营部门和政府来说至关重要。广泛使用的交通服务,如流量控制、路线规划和导航,也严重依赖于高质量的交通状况评估。一般来说,多尺度交通预测是城市交通控制与引导的前提和基础,也是智能交通系统的主要功能之一。

在交通研究中,通常选择交通流的基本变量,即速度、体积和密度作为监测交通状况和现状的指标

预测未来。根据预测时间的长短,交通预测一般分为短期(5 ~ 30分钟)、中期和长期(30分钟以上)。大多数流行的统计方法(例如,线性回归)能够在短间隔预测中表现良好。然而,由于交通流的不确定性和复杂性,这些方法对于相对长期的预测效果较差。

以往对交通中长期预测的研究大致可分为动态建模和数据驱动两大类。动态建模使用数学工具(如微分方程)和物理知识通过计算模拟来制定交通问题[Vlahogianni, 2015]。为了达到稳定状态,仿真过程不仅需要复杂的系统编程,而且需要消耗大量的计算能力。模型中不切实际的假设和简化也降低了预测的精度。因此,随着交通数据采集和存储技术的快速发展,一大批研究人员开始将注意力转向数据驱动方法。

经典的统计模型和机器学习模型是数据驱动方法的两个主要代表。在时间序列分析中,自回归综合移动平均(ARIMA)及其变体是基于经典统计的最统一的方法之一[Ahmed和Cook, 1979;Williams and Hoel, 2003]。然而,这类模型受到时间序列平稳假设的限制,没有考虑到时空相关性。

因此,这些方法限制了高度非线性交通流的可表征性。近年来,经典统计模型在交通预测任务上受到机器学习方法的强烈挑战。这些模型可以实现更高的预测精度和更复杂的数据建模,例如k近邻算法(KNN)、支持向量机(SVM)和神经网络(NN)。

深度学习方法

已广泛成功地应用于当今各种交通任务中。相关工作取得了重大进展,如深度信念网络(DBN) [Jia et al ., 2016;黄等人,2014],堆叠式自编码器(SAE) [Lv等人,2015;Chen et al, 2016]。然而,对于这些致密的金属来说,这是很困难的[c]。LG] 12 Jul 2018网络从输入中联合提取时空特征。此外,在狭窄的约束条件下,甚至完全没有空间属性,这些网络的代表能力将受到严重阻碍。

为了充分利用交通网络的空间特征,一些研究者采用卷积神经网络(CNN)捕捉交通网络之间的相邻关系,同时在时间轴上采用递归神经网络(RNN)。Wu和Tan[2016]将长短期记忆(LSTM)网络[Hochreiter and Schmidhuber, 1997]与一维CNN相结合,提出了一种用于短期交通预测的特征级融合架构CLTFP。尽管它采用了一种直接的策略,但CLTFP仍然首次尝试对齐空间和时间规律。随后,Shi等[2015]提出了卷积LSTM,这是一种嵌入卷积层的扩展全连接LSTM (FC-LSTM)。然而,常规的卷积操作限制了模型只能处理网格结构(如图像、视频),而不能处理一般的域。同时,用于序列学习的循环网络需要迭代训练,这就引入了逐级误差积累。此外,众所周知,基于rnn的网络(包括LSTM)难以训练且计算量很大。

为了克服这些问题,我们介绍了几种有效建模交通流的时间动态和空间依赖性的策略。为了充分利用空间信息,我们将交通网络建模为一般图,而不是单独处理(如网格或分段)。为了解决递归网络固有的缺陷,我们在时间轴上采用了全卷积结构。最重要的是,我们提出了一种新的深度学习架构,时空图卷积网络,用于交通预测任务。该架构包括几个时空卷积块,它们是图卷积层[Defferrard等人,2016]和卷积序列学习层的组合,用于建模空间和时间依赖性。据我们所知,这是第一次在交通研究中应用纯卷积结构同时从图结构时间序列中提取时空特征。我们在两个真实世界的交通数据集上评估了我们提出的模型。实验表明,我们的框架在具有多个预设预测长度和网络规模的预测任务中优于现有的基线。

2 准备

2.1基于道路图的交通预测

交通预测是一个典型的时间序列预测问题,即预测最可能的交通测量值(例如:给定之前的M个交通观测值,在接下来的H个时间步长为,

式中为时间步长t时刻n个路段的观测向量,其中每个元素记录单个路段的历史观测值。在这项工作中,我们在图上定义交通网络,并关注结构化交通时间序列。观察结果是在图中不是独立的而是两两连接的。因此,数据点v_t可以看作是定义在无向图(或有向图)G上的一个图信号,其权重为w_{ij},如图1所示。在第t个时间步,图中,V_t是一个有限的顶点集合,对应于交通网络中n个监测站的观测值;E为边的集合,表示站点之间的连通性;表示Gt的加权邻接矩阵。

图1:图表结构的交通数据。每个vt表示在时间步长t的当前交通状态的一帧,它被记录在一个图形结构的数据矩阵中

2.2图上的卷积

规则网格的标准卷积显然不适用于一般图。目前探索如何将CNNs推广到结构化数据形式的基本方法有两种。一种是扩展卷积的空间定义[Niepert et al ., 2016],另一种是在谱域中使用图傅里叶变换进行操作[Bruna et al ., 2013]。前一种方法将顶点重新排列成一定的网格形式,这些网格形式可以通过正常的卷积运算来处理。后者引入谱框架,在谱域应用卷积,通常称为谱图卷积。几项后续研究通过将计算复杂度从O(n2)降低到线性,使图卷积更有前景[Defferrard等人,2016;Kipf and Welling, 2016]。

我们引入图像卷积算子的概念“∗G”基于卷积谱图的概念,作为一个信号的乘法x\in R^n内核Θ,

在图的傅里叶基础U\in R^{n \times n}是矩阵的特征向量归一化图拉普拉斯算子L=I_n-D^{-\frac{1}{2}}WD^{-\frac{1}{2}}=U\Lambda U^T \in R^{n \times n}(I_n是一个单位矩阵,D\in R^{n \times n}对角线度矩阵与D_{ii}=\Sigma _jW_{ij});\Lambda \in R^{n \times n}是L的特征值的对角矩阵,滤波器Θ(Λ)也是对角矩阵。根据这个定义,图形信号x通过一个核Θ通过Θ与图形傅里叶变换U T x的乘法进行过滤[Shuman et al, 2013]。

3建议模型

3.1网络结构

在本节中,我们详细阐述了提出的时空图卷积网络(STGCN)架构。如图2所示,STGCN由多个时空卷积块组成,每个时空卷积块形成一个“三明治”结构,其中有两个门控序列卷积层,中间有一个空间图卷积层。每个模块的详细描述如下。

图2:时空图卷积网络架构。框架STGCN由两个时空卷积块(ST-Conv块)和一个完全连接的输出层组成。每个ST-Conv块包含两个时间门控卷积层和中间的一个空间图卷积层。在每个块内部应用剩余连接和瓶颈策略。输入v_{t-M+1},...,v_t由ST-Conv块统一处理,以连贯地探索空间和时间依赖关系。综合特征通过一个输出层进行整合,生成最终的预测结果\hat{v}

3.2图cnn提取空间特征

交通网络通常以图形结构组织。用数学方法将道路网形象化是自然而合理的。然而,以往的研究忽视了交通网络的空间属性,忽视了交通网络的连通性和全局性,因为它们被分割成多个分段或网格。即使在网格上使用二维卷积,由于数据建模的妥协,它也只能粗略地捕获空间局部性。因此,在我们的模型中,图卷积直接用于图结构数据,以提取空间域中高度有意义的模式和特征。虽然通过Eq.(2)在图卷积中计算核Θ由于与图傅立叶基进行O(n^2)次乘法可能会很昂贵,但采用两种近似策略来克服这个问题。

切比雪夫多项式近似

为了使滤波器局部化并减少参数的数量,可以将核Θ限制为Λ的多项式,如其中是多项式系数的向量。K是图卷积的核大小,它决定了从中心节点开始的卷积的最大半径。传统上,切比雪夫多项式T_k(x)用于将核近似为K−1阶的截断展开式,重新标为 (\lambda _{max}表示L的最大特征值)[Hammond等,2011]。图的卷积可以重写为,

其中是k阶的Chebyshev多项式,在拉普拉斯函数处求值。通过多项式近似递归计算K局部卷积,Eq.(2)的代价可以降为O(K|\varepsilon |),如Eq.(3)所示[Defferrard et al ., 2016]。

1阶近似

分层线性公式可以通过使用图拉普拉斯的一阶近似叠加多个局部图卷积层来定义[Kipf和Welling, 2016]。因此,可以构建更深层的体系结构来深度恢复空间信息,而不受多项式给出的显式参数化的限制。由于神经网络的尺度化和归一化,我们可以进一步假设\lambda _{max}≈2。因此,式(3)可简化为:

式中,\theta _0\theta _1为核函数的两个共享参数。为了约束参数和稳定数值性能,将\theta _0\theta _1替换为单个参数\theta,令\theta = \theta _0 =  -\theta _1;W和D分别由\tilde{W}=W=I_n\tilde{D_{ii}}=\sum _j\tilde{W_{ij}}重整。那么,图卷积可以交替表示为:

垂直应用一阶近似的图卷积堆栈,达到与水平klocalization卷积相似的效果,所有这些都利用了中心节点的(K−1)阶邻域的信息。在这种情况下,K是模型中连续过滤操作或卷积层的数量。此外,分层线性结构是参数经济和高效的大规模图,因为近似的顺序被限制为1。

图卷积的泛化

定义在x \in R^{n \times n}上的图卷积算子“∗G”可以推广到多维张量。对于具有C_i个通道x \in R^{n \times C_i}的信号,图卷积可以推广为:

用Chebyshev系数\Theta_{i,j} \in R^KC_i × C_0向量表示(C_i, C_0分别为特征映射的输入和输出的大小)。二维变量的图卷积记为“Θ∗gX”,其中。具体来说,交通预测的输入由M帧道路图组成,如图1所示。每一帧v_t可以看作是一个矩阵,其中列i为图Gt中第i个节点vt的i维值,如X \in R^{n \times C_i}(本例中Ci = 1)。对于M的每一个时间步t,对X_t \in R^{n \times C_i}并行施加相同核Θ的相等图卷积操作。因此,图卷积可以在三维变量中进一步推广,记为,其中

3.3门控cnn提取时间特征

尽管基于rnn的模型在时间序列分析中得到了广泛应用,但用于流量预测的循环网络仍然存在迭代耗时、门机制复杂、对动态变化响应缓慢等问题。相反,cnn具有训练速度快、结构简单、不受前几步依赖约束等优点。受[Gehring等人,2017]的启发,我们在时间轴上使用整个卷积结构来捕获交通流的时间动态行为。这种特殊的设计允许并行和可控的训练过程,通过多层卷积结构形成分层表示。

如图2(右)所示,时间卷积层包含一个1-D因果卷积,其宽度为kt核,然后是门控线性单元(GLU)作为非线性。对于图G中的每个节点,时间卷积在没有填充的情况下探索输入元素的K_t个邻居,这导致每次将序列长度缩短K_t-1。因此,每个节点的时间卷积输入可以看作是一个长度为M的序列,其中C_i个通道为Y \in R^{M \times C_i}。卷积核\Gamma \in R^{K_t \times C_i \times 2C_0}旨在将输入Y映射到单个输出元素[P,Q]\in R^{(M-K_t+1)\times (2C_0)} (P, Q被分成两半,通道大小相同)。因此,时间门控卷积可以定义为

式中,P、Q分别为GLU中各门的输入;\odot 表示逐元素的Hadamard乘积。sigmoid门σ(Q)控制输入电流状态的P,对于发现时间序列的组成结构和动态方差是相关的。非线性门也有助于通过堆叠的时间层开发全输入场。此外,在叠置的时间卷积层之间实现残差连接。类似地,时间卷积也可以推广到三维变量,通过对G中的每个节点Y_i \in R^{M \times C_i}(例如传感器站)使用相同的卷积核Γ,记为“\Gamma *_\tau Y”,Y \in R^{M\times n \times C_i}

3.4时空卷积块

为了融合空间和时间域的特征,构建了时空卷积块(ST-Conv块)对图结构时间序列进行联合处理。块本身可以根据特定情况的规模和复杂性进行堆叠或扩展。

如图2(中)所示,中间的空间层是连接两个时间层的桥梁,可以通过时间卷积实现从图卷积到空间状态的快速传播。“三明治”结构也有助于网络充分应用瓶颈策略,通过图卷积层对通道C进行降尺度和升尺度,实现尺度压缩和特征压缩。此外,在每个ST-Conv块内使用层归一化以防止过拟合。ST-Conv块的输入和输出都是三维张量。

对于块l的输入v^l \in R^{M \times n \times C^l},输出v^{l+1} \in R^{(M-2(K_t-1)) \times n \times C^{l+1}}的计算式为

式中\Gamma _0^l\Gamma _1^l分别为l块内的上、下时间核;\Theta ^l为图卷积的谱核;ReLU(·)为整流线性单位函数。在堆叠两个ST-Conv块之后,我们附加了一个额外的时间卷积层,其中一个完全连接的层作为最后的输出层(见图2的左侧)。时间卷积层将最后一个ST-Conv块的输出映射到单步预测。然后,我们可以从模型中得到最终输出Z\in R^{n \times c},并通过对c通道进行线性变换,计算出n个节点的速度预测为:\hat{v} =Zw+b,其中w\in R^{ c}为权重向量,b为偏置。我们使用L2损耗来衡量我们模型的性能。因此,STGCN用于流量预测的损失函数为:

其中,W_\theta为模型中所有可训练的参数;v_{t+1}为基础真值,\hat{v}(\cdot )为模型预测值。

我们现在将我们的模型STGCN的主要特征总结如下:

•STGCN是处理结构化时间序列的通用框架。它不仅能够解决交通网络建模和预测问题,而且还可以应用于更一般的时空序列学习任务。

•时空块结合了图卷积和门控时间卷积,可以提取最有用的空间特征,并连贯地捕获最基本的时间特征。

•该模型完全由卷积结构组成,因此以更少的参数和更快的训练速度实现了对输入的并行化。更重要的是,这种经济架构允许模型以更高的效率处理大规模网络。

4 实验

4.1数据集描述

我们在两个真实的交通数据集BJER4和PeMSD7上验证了我们的模型,这两个数据集分别由北京市交通委员会和加州交通局收集。每个数据集包含交通观测和地理信息的关键属性以及相应的时间戳,详见下文。

BJER4采用双环检测器在北京市东环4号线主要区域采集。我们的实验选择了12条路。流量数据每5分钟聚合一次。使用的时间段为2014年7月1日至8月31日,周末除外。我们选择历史速度记录的第一个月作为训练集,其余的分别作为验证集和测试集。

PeMSD7由部署在加州州高速公路系统主要大都市区的39000多个传感器站实时从Caltrans性能测量系统(PeMS)中收集[Chen等,2001]。数据集也从30秒的数据样本中聚合成5分钟的间隔。我们在加州第7区随机选取了228和1026个中型和大型样本,分别标记为PeMSD7(M)和PeMSD7(L)作为数据源,如图3左侧所示。PeMSD7数据集的时间范围为2012年5月和6月的工作日。我们基于与上面相同的原则来划分训练集和测试集。

图3:加州7区的PeMS传感器网络(左),每个点代表一个传感器站;PeMSD7(M)中加权邻接矩阵热图(右)。

4.2数据预处理

两个数据集的标准时间间隔设置为5分钟。因此,道路图的每个节点每天包含288个数据点。采用线性插值法对数据清洗后的缺失值进行填充。此外,数据输入采用Z-Score方法进行归一化。

在BJER4中,利用传感器站布置图构建了北京东四环路网系统的路网拓扑结构。通过对每条道路的隶属关系、方向和起讫点进行整理,将环形路线系统数字化为有向图。

在PeMSD7中,道路图的邻接矩阵是基于交通网络中站点之间的距离计算的。加权邻接矩阵W可形成为:

其中wij是边的权值,由dij(站i到j之间的距离)决定。σ2和\varepsilon为控制矩阵W分布和稀疏度的阈值,分别赋值为10和0.5。W的可视化如图3右侧所示。

4.3实验设置

所有实验均在Linux集群(CPU: Intel(R) Xeon(R) CPU E5-2620 v4 @ 2.10GHz, GPU: NVIDIA GeForce GTX 1080)上进行编译和测试。为了消除非典型流量,我们的实验只采用工作日的流量数据[Li et al ., 2015]。在验证过程中,采用网格搜索策略定位最佳参数。所有测试都使用60分钟作为历史时间窗口,即使用12个观测数据点(M = 12)来预测未来15分钟、30分钟和45分钟(H = 3,6,9)的交通状况。

评估标准与基线 为了测量和评估不同方法的性能,平均绝对误差(MAE),平均绝对百分比误差(MAPE)和采用均方根误差(RMSE)。我们将我们的框架STGCN与以下基线进行比较:历史平均值(HA);2)线性支持维克多回归(LSVR);3).自回归综合移动平均(ARIMA);4)前馈神经网络(FNN);5)。全连接LSTM (FC-LSTM) [Sutskever等,2014];6).图卷积GRU (GCGRU) [Li et al ., 2018]。

STGCN模型 对于BJER4和PeMSD7(M/L), ST-Conv块的三层通道分别为64、16、64。采用Chebyshev多项式近似的STGCN(Cheb)模型图卷积核大小K和时间卷积核大小Kt都设置为3,而采用一阶近似的STGCN(1st)模型K设置为1。我们通过使用RMSprop最小化均方误差来训练我们的模型,批大小为50。初始学习率为10−3,每5次迭代后衰减率为0.7。

4.4实验结果

表1和表2展示了STGCN和基线在数据集BJER4和PeMSD7(M/L)上的结果。我们提出的模型在三个评价指标中均取得了最优的表现,且具有统计学显著性(双尾t检验,α = 0.01, P < 0.01)。我们可以很容易地观察到,传统的统计和机器学习方法可能在短期预测中表现良好,但由于错误积累、记忆问题和缺乏空间信息,它们的长期预测并不准确。ARIMA模型由于不能处理复杂的时空数据而表现最差。深度学习方法通常比传统的机器学习模型获得更好的预测结果。

空间拓扑的好处

以前的方法没有考虑空间拓扑,并且以粗粒度的方式建模时间序列。不同的是,通过对传感器的空间拓扑进行建模,我们的模型STGCN在短期和中长期预测方面取得了显著的进步。相比BJER4, STGCN在数据集PeMSD7上的优势更为明显,因为pemms的传感器网络更加复杂和结构化(如图3所示),我们的模型可以有效地利用空间结构进行更准确的预测。

为了比较三种基于图卷积的方法:GCGRU、STGCN(Cheb)和STGCN(1st),我们展示了它们的早高峰和晚高峰时段的预测,如图4所示。不难看出,我们提出的STGCN比其他方法更准确地捕捉了高峰时间的趋势;它还能比其他系统更早地检测到高峰时间的结束。基于高效的图卷积和叠加时间卷积结构,我们的模型能够快速响应交通网络之间的动态变化,而不像大多数循环网络那样过度依赖历史平均值。

训练效率与泛化

为了在我们的提议中看到沿时间轴卷积的好处,我们总结了STGCN和GCGRU之间的训练时间比较,见表3。在公平性方面,实验中对于PeMSD7(M), GCGRU由三层组成,分别为64、64、128个单元,STGCN采用章节4.3中描述的默认设置。我们的模型STGCN仅消耗272秒,而rnn型模型GCGRU在PeMSD7(M)上花费3824秒。这14倍的训练速度加速主要得益于使用时间卷积而不是循环结构,它可以实现完全并行训练,而不是完全依赖链结构作为RNN。

对于PeMSD7(L), GCGRU必须使用一半的批处理大小,因为它的GPU消耗超过了单个卡的内存容量(结果在表2中标记为“*”);而STGCN只需要在ST-Conv块中间增加一倍的通道。尽管在这种情况下,我们的模型所消耗的训练时间还不到GCGRU模型的十分之一。同时,一阶近似的优点已经显现,因为它不局限于多项式的参数化。与STGCN(Cheb)相比,模型STGCN(1)在更大的数据集上的速度提高了约20%,性能令人满意。为了进一步考察所比较的深度学习模型的性能,我们绘制了PeMSD7(M)在训练过程中测试集的RMSE和MAE,见图5。

这些数据也表明,我们的模型可以实现更快的训练过程和更容易的收敛。由于ST-Conv模块的特殊设计,我们的模型在平衡时间消耗和参数设置方面具有优越的性能。具体而言,STGCN (4.54 × 10^5)的参数数量仅占GCGRU的三分之二左右,与FC-LSTM相比节省了95%以上的参数

5相关工作

最近有几项深度学习研究也受到了图卷积在时空任务中的启发。

Seo等[2016]引入了图卷积循环网络(GCRN),从数据的结构化序列中联合识别空间结构和动态变化。本研究的关键挑战是在特定设置下确定循环网络和图卷积的最佳组合。基于上述原理,Li等[2018]成功地采用了带图卷积的门控循环单元(GRU)进行长期交通预测。与这些工作相反,我们完全从卷积结构建立我们的模型;ST-Conv块专门用于统一处理内部有残留连接和瓶颈策略的结构化数据;我们的模型还采用了更高效的图卷积核。

6 总结和未来工作

在本文中,我们提出了一种新的深度学习框架STGCN,用于交通预测,通过时空卷积块集成图卷积和门控时间卷积。实验表明,我们的模型在两个真实世界的数据集上优于其他最先进的方法,表明它在从输入探索时空结构方面具有巨大的潜力。它还实现了更快的训练、更容易的收敛和更少的参数,具有灵活性和可扩展性。这些特性对于学术开发和大规模工业部署都是非常有前途和实用的。在未来,我们将进一步优化网络结构和参数设置。此外,我们提出的框架可以应用于更一般的时空结构序列预测场景,如社会网络的演化、推荐系统的偏好预测等。

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值