Deep learning in the COVID-19 epidemic: A deep model for urban traffic revitalization index
原文,见这里
作者:Zhiqiang Lv , Jianbo Li , Chuanhao Dong , Haoran Li , Zhihao Xu
期刊:爱斯维尔Data & Knowledge Engineering,2021
关键字:COVID-19; 交通振兴指数;数据挖掘;数据模型;挖掘方法和算法
摘要
交通振兴指数的研究可为城市管理、疫情防控、复工复产等相关政策的制定和调整提供支持。本文提出了城市交通振兴指数深度预测模型 a deep model for the prediction of urban Traffic
Revitalization Index(DeepTRI)。DeepTRI构建了中国主要城市新冠肺炎疫情数据和交通振兴指数模型。29个城市的位置信息构成了图的拓扑结构。本文提出的空间卷积层捕捉了图结构的空间相关特征。专门的Graph Data Fusion模块将两类数据按照不同的比例进行分布和融合,增加数据的空间相关性趋势。为了降低计算过程的复杂性,时间卷积层用多级剩余结构取代了传统递归神经网络的门控递归机制。利用扩张因子随凸函数变化的扩张卷积控制接收野的动态变化,利用因果卷积充分挖掘数据的历史信息,优化长期预测能力。通过与三种基线(传统递归神经网络、普通时空模型和图形时空模型)的对比实验,表明了DeepTRI在评价指标方面的优势,并解决了边缘值欠拟合和局部峰欠拟合两大欠拟合问题。
1. Introduction
1.1. Urban traffic revitalization index
交通状况是反映城市运行、生产和生活健康和秩序的重要特征。道路状况和出行数据[1]可以很好地反映城市生产和消费活动的恢复情况。城市交通振兴指数 traffic revitalization index (本文简称 TRI )数据由滴滴平台[2]计算。滴滴平台研究人员对城市交通轨迹和道路拥堵数据进行拟合、交叉验证和加权。TRI是反映城市交通出行状况的重要指标。TRI基于智能交通技术和数据分析能力,让用户直观地看到每个城市交通的恢复情况。它为有序促进生产和生活的恢复提供了更多的信息。它科学、客观地反映了城市交通活动。总体而言,流量活动量随TRI的增加而增加。TRI 是专门针对2019冠状病毒病对城市交通影响而设立的指标。在 TRI 概念中,2019年底非疫情期间各城市TRI接近1。随着2019年底新冠肺炎疫情的爆发,交通出行受到很大影响,这直接导致各城市的TRI大幅下降。面对疫情,政府和卫生部门制定并实施了各项防疫措施。各城市生产生活逐步恢复。城市交通的活力将逐渐恢复到正常水平。
交通运输业是国民经济的基础产业和主导产业,是国民经济的重要组成部分。交通运输业的发展促进了经济的快速增长。经济的增长反过来又带动了交通运输业的发展。因此,TRI与经济发展具有动态同步。表1显示了城市GDP与TRI的关系。中国的GDP是按季度计算的,所以我们计算了2020年前两个季度中国多个城市的GDP和平均TRI。从统计结果可以看出,几乎所有的城市在第二季度都经历了GDP的大幅增长。与此同时,TRI也随之增加。由于第二波疫情的爆发,厦门第二季度GDP有所下降。第二季度的TRI下降了0.4219%。从以上结果可以看出,无论GDP是增加还是减少,GDP与TRI都是动态同步的。
1.2. The economic impact of the COVID-19
新冠肺炎疫情对交通运输业产生了深远而重大的影响[3-6],对世界经济产生了严重的影响[7-9]。随着疫情蔓延,产业需求下降,病毒感染风险上升,中国交通运输服务大幅下降。2019年底,正常情况下,中国城市 TRI 接近1。但由于疫情的蔓延,2020年初中国所有城市的TRI都出现了不同程度的下降。图1显示了2020年初中国工业增加值同比增长与疑似病例数的关系。我们可以知道,2月份的疑似病例数量达到了高峰。受疫情影响,3月份工业增加值严重下滑,甚至出现负增长。3月以来,在有力防控措施的帮助下,国内疫情逐步消退,疑似病例迅速减少。城市生产生活逐步恢复,交通活力逐步恢复正常水平[10]。
1.3. Graph neural network
随着深度学习的发展,图像、语音和自然语言处理等领域都取得了重大的技术突破[11-13]。深度学习擅长处理结构化数据,如语音、图像和文本。然而,现实世界中存在大量的非结构化数据,如社交网络拓扑、知识地图等。非结构化数据不具有与图像相同的空间位置,其数据范围是任意的,且拓扑结构复杂。图神经网络[14]与神经网络最基本的结构(Multi-Layer Perception, MLP)相比,增加了一个邻接矩阵参与矩阵计算的过程,如式(1)所示。
σ
\sigma
σ代表非线性变换.
A
A
A表示邻接矩阵。
X
X
X表示特征矩阵,
W
W
W表示权重矩阵。
H
=
σ
(
A
X
W
)
(1)
H=\sigma(AXW)\tag{1}
H=σ(AXW)(1)
图[15]时空网络捕捉了数据的空间相关性和时间依赖性。时空图具有全局图结构,每个节点的值随着时间的推移而变化。例如,许多作品建立了 PeMS data[16]的图时空网络。这些网络的基本实现过程以电源模块的数据站作为图的节点。节点的输入为时间序列,如交通流量、车速、道路占用率。时空网络图的边缘表示各数据站之间的经纬度距离。图时空网络的任务是预测节点的未来值或节点的类型。城市之间的空间相关性符合拓扑关系。这种拓扑关系可以转化为邻接矩阵[17],用于图神经网络的计算过程中,如图2所示。
Fig.2 城市空间相关性转化为邻接矩阵的过程。左边地图上的点代表中国一些城市的位置。中间的图表示城市位置的拓扑关系。右图表示城市位置拓扑关系对应的邻接矩阵。
1.4. Contribution
基于上述研究理论,本文将中国城市空间位置关系转化为图结构,结合新冠肺炎疫情数据和TRI数据,完成城市交通恢复预测任务。本文的主要贡献如下:
- 本文提出了一种新的图时空网络(Deep Model for Traffic振兴指数,DeepTRI)。这是首个用于预测 TRI 的时空网络,也是首个将 TRI 与 COVID-19 疫情数据相结合的工作。
- 根据疫情数据的特点,提出了一种特殊的图形数据融合(GDF)模块。GDF对四类流行病数据赋予不同的权重。通过由图卷积网络(GCN)和 GDF 组成的空间卷积层,充分挖掘图结构的空间相关性特征。
- 本文设计了一种时间卷积层,用于计算时间相关性的时序特征。为了克服传统递归神经网络不支持并行计算和训练速度慢的缺点。时间卷积层用多层剩余结构取代了递归神经网络的门控机制。我们利用指数为2的凸函数变化的膨胀因子来控制深度网络的接受域,并利用因果卷积机制来保持历史数据对时间特征的影响。
- 我们利用DeepTRI对TRI数据和4类流行数据进行训练,并建立3类基线(传统递归神经网络、图卷积和图时空网络)来验证DeepTRI的性能。实验结果表明,DeepTRI在评价指标和解决边缘值欠拟合和局部峰欠拟合两大欠拟合问题方面具有明显优势。
2. Related work
这项工作的基本原理是利用城市间的位置信息和 TRI 的时间序列变化来构建图结构模型。将城市间的基本特征映射到图的边值信息上。将城市TRI的时序特征映射到图节点的时序数据上。因此,本工作涉及的知识是利用邻接矩阵建立图结构和对非结构化图的数据预测。
2.1. Basics
图时空网络的基本设计过程是将交通数据(车流量、车速、道路占用率等)的时间变化设计为图节点的输入值,节点之间的位置关系设计为图边的权值。针对传统方法不能满足长期交通预测的要求,交通数据存在复杂的非线性问题,采用🐸时空图卷积网络(Spatial-Temporal Graph Convolutional Networks, STGCN)[18]基于图神经网络对交通数据的时间序列进行预测。为了提高模型的训练速度,STGCN1采用纯卷积结构构建时空卷积块。时空卷积块由两个时间门式卷积块和一个空间图式卷积块组成。与统计方法(ARIMA)、传统机器学习方法和时空模型相比,STGCN在准确性和训练速度方面具有优势。针对交通网络中的交通流预测问题,提出了🐸基于注意力的时空图卷积网络(ASTGCN)[19]。ASTGCN2分别对交通流的三个时间特征(近期数据、日周期数据和周周期数据)建立模型。这三个时间特性的计算过程是相互独立的。每个计算过程首先利用时间注意机制计算不同时间之间的动态依赖性,利用空间注意机制计算不同位置之间的动态相关性。最后,利用时空卷积模块计算图的空间特征和交通网络中相邻节点的依赖关系。将ASTGCN方法与传统方法、递归神经网络以及其他图形时空网络进行了比较。即使没有注意机制的ASTGCN模型的准确率也高于其他模型。加入注意机制后,ASTGCN在RMSE指标平均下降6.2%,在MAE指标平均下降4.5%。不考虑注意机制的ASTGCN模型的准确率高于其他模型。加入注意机制后,ASTGCN的RMSE下降了6.2%,RMSE下降了4.5%。🐸时间图卷积网络(T-GCN3)[20]结合图卷积网络(GCN)和门控递归单元(GRU)来完成车速预测任务。GCN通过构建交通网络的拓扑关系(连通性)来计算空间相关性。GRU通过计算车辆速度的时间序列变化来计算时间依赖性。
2.2. Adjacency matrix
STGCN和ASTGCN的邻接矩阵表示节点之间的距离关系。而T-GCN的邻接矩阵表示节点之间的连通性。因此,T-GCN的邻接矩阵由0和1组成。在对比实验中,虽然T-GCN在长期预测上表现良好,但边缘值和局部峰值的预测结果出现欠拟合问题。与上述研究不同的是,扩散卷积递归神经网络(Diffusion Convolutional Recurrent Neural Network, DCRNN4)[21]利用有向图计算交通数据的时空特征。DCRNN采用双向随机游走机制计算空间相关性,采用编码器-解码器机制计算时间相关性。DCRNN的扩散性主要体现在整个网络通过最大化目标值的时间范围来产生更多的预测。与实验基线相比,DCRNN的准确率提高了12% ~ 15%。GCNN-DDGF5[22]基于共享自行车系统数据设计了四个邻接矩阵,包括空间距离矩阵、需求矩阵、平均出行持续时间矩阵和需求相关矩阵。它计算不同类型站点之间的相互关系,以预测大规模共享自行车网络中的短期需求.带数据驱动图过滤器(Data-driven Graph Filter, GCNN-DDGF)的图卷积神经网络[23]关注节点之间动态流的相似关系。提出了建立邻接矩阵的三种模式,包括距离图、交互图和相关图。距离图The distance graph 使用节点距离的倒数来表示节点之间的权值。交互图 The interaction graph使用两个节点之间的驱动记录数来表示节点之间的权值。相关图The related graph使用皮尔逊相关系数(Pearson Correlation Coefficient)计算两个节点在固定时间间隔内的流入或流出之间的相关关系,作为节点之间的权重。GCNN-DDGF并没有分别计算上述三个邻接矩阵,而是将三个邻接矩阵融合为一个邻接矩阵,并进行图卷积的过程。
2.3. Special graph
在出租车需求研究领域,为了捕捉不同区域间乘客空间运动的相对关系,基于网格嵌入的多任务学习(GEML)[24]将城市区域划分为网格。图节点表示地理区域(网格形式),节点之间的边表示乘客需求。GEML使用多任务学习模块来计算时间序列数据(网格的流入和流出)的依赖性特征。时空同步图卷积网络(STSGCN)[25]提出了一种特殊的图结构(局部时空图)。局部时空图主要关注节点对相邻节点的三种影响:基于空间关系的相关性影响、基于同一节点的时间依赖性影响以及相邻节点在上一个时间步向下一个时间步转移过程中的时空相关性影响。在局部时空图中,每个节点不仅具有其同一时间步长的邻居节点的值,而且还具有其前后两个时间步的值。将其前后两个时间步的邻居节点的值作为其二阶邻居。局部时空卷积利用图卷积使每个节点考虑自己与其多阶邻居的关系。每个节点与其一阶近邻之间的相互影响包括空间相关性和时间相关性。二阶邻域之间的影响包括时间和空间的相关性。工作[26]提出了两个适用于图卷积的自适应模块:节点自适应参数学习 node adaptive parameter learning**(NAPL**)和数据自适应图生成data adaptive graph generation(DAGG)。NAPL并不在所有节点之间共享参数,但它为每个节点维护一个唯一的空间参数,以学习特定节点的模式。DAGG克服了传统图卷积网络需要预先定义邻接矩阵的缺点,可以从数据中自动计算出节点之间隐式的相互依赖关系。
3. Model design
3.1. Overview
DeepTRI的主要结构如图3所示。基于城市间的空间位置关系,建立了图结构邻接矩阵(
W
W
W)[图3左中]。城市TRI数据
{
V
t
}
\{V_t\}
{Vt}以自适应图结构的形式进行处理,然后参与第一时间卷积层的计算过程。第一时间卷积层对TRI数据进行尺度压缩和特征变换,而不是简单的线性化和拼接操作。
W
W
W与第一时间卷积层(
{
T
C
t
1
}
\{TC^1_t\}
{TCt1})的输出相结合,以计算TRI数据的空间相关性。这个 GDF 融合并计算了各个城市(
{
U
}
\{U\}
{U})和全国(
{
C
}
\{C\}
{C})疫情数据的多尺度特征。第二个时间卷积层计算融合数据的时间依赖性(
{
S
C
t
}
\{SC_t\}
{SCt})。从图3可以看出,时间卷积层Temporal Convolution Layer由多级残差块multi-level residual blocks组成。每个剩余块包含因果卷积和扩张卷积。因果卷积使隐藏层当前节点的三特征与所有历史信息相关联,从而增强了序列的时间依赖性。扩张卷积使隐藏层的卷积过程能够在不改变隐藏层数量的情况下获得更大的动态感受野。DeepTRI 完全由卷积网络组成,因此使用BatchNorma2d来防止卷积网络的梯度消失和梯度爆炸。最后,完全连接的层将数据特征映射到样本空间,以获得最终输出(
{
v
′
t
}
\{v′_t\}
{v′t})。
3.2. Definition
TRI的预测问题可以定义为模型根据历史数据
(
{
v
t
−
s
,
⋯
,
v
t
−
2
,
v
t
−
1
}
)
(\{v_{t-s},\cdots,v_{t-2},v_{t-1}\})
({vt−s,⋯,vt−2,vt−1})对下一个时间间隔
t
t
t数据
(
v
i
)
(v_i)
(vi)的预测,
s
s
s表示历史数据的个数,如公式(2)所示。
F
F
F表示模型的搭建方法。
v
t
′
=
F
(
[
v
t
−
s
,
⋯
,
v
t
−
2
,
v
t
−
1
]
)
(2)
v'_t=F([v_{t-s},\cdots,v_{t-2},v_{t-1}])\tag{2}
vt′=F([vt−s,⋯,vt−2,vt−1])(2)
城市之间的拓扑关系用图结构 G = ( W , V ) G=(W,V) G=(W,V)描述。 W W W表示邻接矩阵, V V V表示每个城市在么个时间点的 TRI 数据。
🔥模型的输入数据有四个维度,分别是[batch size, node count, time step, channel]。批大小表示在一个时期内选择的样本数量。节点数表示城市节点的数量。时间步长表示天数。通道表示数据特征的数量。
🔥第一时间卷积层实现数据的线性变化和底层特征的计算,其形状为 [batch size, node count, time step – k + 1, Output1]. k k k是计算第一时序卷积层的卷积核的大小。 o u t p u t 1 output1 output1是第一时序卷积层的输出维度。
🔥空间卷积层包含两个过程(GCN和GDF)。GCN本身只改变数据特征,它的最终形状不会改变。GDF涉及到国家的疫情治愈人数,所以形状增加1,其形状为[batch size, node count, time step – k + 1, Output1 + 1].
🔥第二时间卷积层计算数据特征的时间依赖性以形成高级特征。它的形状是[batch size, node count, time step – 2(k + 1), Output2]。 O u t p u t 2 Output2 Output2是第二个时间卷积层的输出维度。
🔥模型的输出值由全连接层产生,其形状为 [batch size, node count, time step]。时间步长的值表示模型需要预测的 TRI 的范围。例如,当时间步长设置为3时,该模型预测每个城市未来三天的TRI值。
3.3. Spatial convolution layer
空间卷积层的主要功能是计算各城市的TRI与疫情数据之间的空间相关性。根据城市之间的距离,建立了由城市分布组成的图。GDF 通过多尺度方法将GCN的输出与流行病数据融合。更重要的是,全球发展指标对不同类型的流行病数据赋予了不同的权重。
Graph convolutional network
GCN的基本过程是图的每个节点随时受到相邻和更远节点的影响,并改变自己的状态,直到最终达到平衡。相邻节点越近,对原始节点的影响越大。拉普拉斯矩阵可以将数据的传递强度与状态的差异进行正向比较。为了将原节点对自身的影响加入到计算过程中,采用改进的拉普拉斯矩阵,如式(3)所示。
L
=
D
−
1
/
2
A
D
−
1
/
2
(3)
L=D^{-1/2}AD^{-1/2}\tag{3}
L=D−1/2AD−1/2(3)
A
A
A表示
W
W
W添加了自环后的邻接矩阵,
D
D
D表示
A
A
A的度分布矩阵。它增加了自己的度矩阵,解决了自转移问题。邻接矩阵的归一化操作是将邻接矩阵的两侧乘以取平方根和倒置的节点度的值来实现的。原始谱卷积实现了各节点乘积和傅里叶变换的滤波。但是,由于特征向量为高阶变量,且拉普拉斯矩阵在大图结构中分解效率低,我们使用k阶切比雪夫多项式来近似拉普拉斯矩阵的计算过程,如式(4)所示。
公式4
y
y
y表示第一时序卷积层的输出。
T
i
(
L
~
)
T_i(\tilde{L})
Ti(L~)的计算过程见公式5,它代表了切比雪夫多项式的递归定义。这种方法被称为K-局部卷积算法K-localized convolution algorithm,它确保当前节点只考虑值在K范围内的节点的影响。上述过程大大降低了图卷积网络的时间复杂度。
公式5
Graph data fusion
TRI 数据经过第一层时间卷积层,形成TRI数据的底层特征。经过GCN处理,初步具有城市区位的空间关联特征。上述过程就是图4中矩阵(a)的数据处理过程。GDF 对于 DeepTRI 来说是不可或缺的,因为代表城市间 TRI 关系的矩阵(a)的空间特征并不显著。没有GDF的DeepTRI的实验结果导致性能较差,我们在实验中验证了这一理论。GDF 通过多尺度的方法,将各城市的疫情数据与各城市的TRI数据以及全国疫情数据进行融合,增加各城市交通振兴的空间特征。我们通过对代表TRI和原始流行病数据基本特征的矩阵(a)进行concat和不同维度加权求和等操作来实现多尺度融合。多尺度融合过程通过融合不同层次的语义特征来提高预测的准确性。
如图4的计算过程,将四类疫情数据映射为矩阵(b)中的4个通道,并将代表治愈病例的通道线性化为7个维度。四种数据的比例为1:1:1:4。经过比例分配过程后,特征矩阵与经Con2d处理的矩阵(a)具有相同的维数,其卷积核为3×3。因为此时矩阵(a)和(b)具有相同的矩阵维数,所以我们对这两个矩阵应用加权求和法。矩阵©表示全国的治愈病例。在通过了带有3×1内核的Conv2d之后,它有了初步的数据特性。最后,将矩阵©与(a)和(b)特征相加的结果矩阵进行合并,完成GDF的多尺度数据融合过程。
Causal convolution
因果卷积理论用于追踪更遥远的历史信息[29],因果卷积公式如(6)所示。
{
𝑥
1
,
𝑥
2
,
⋯
,
𝑥
𝑡
}
\{𝑥_1,𝑥_2,\cdots,𝑥_𝑡\}
{x1,x2,⋯,xt} 是输入序列
{
𝑦
1
,
𝑦
2
,
⋯
,
𝑦
𝑡
}
\{𝑦_1,𝑦_2,\cdots,𝑦_𝑡\}
{y1,y2,⋯,yt} 是隐藏层的输出顺序,并且
{
𝑓
1
,
𝑓
2
.
⋯
,
𝑓
𝑘
}
\{𝑓_1,𝑓_2.\cdots,𝑓_𝑘\}
{f1,f2.⋯,fk} 是筛选器序列。因果卷积只关注历史信息而忽略未来信息。
𝑦
𝑡
𝑦_𝑡
yt 的结果仅追溯到从
𝑥
𝑡
𝑥_𝑡
xt之前的数据. 𝐾越大, 更多可追溯的历史信息。如果当前层的原始输入序列为[0,i],则下一层的原始输入序列将变为[0,i+1]。
公式6
Dilated convolution
在深度网络中,为了增加接受域 receptive field,减少计算量,模型总是需要下采样。虽然接受域可以增加,但空间分辨率降低。为了不丢失分辨率并仍然扩大感受野,我们使用了扩张卷积[30]。扩张卷积有一个参数可以控制扩张率(d)。卷积核用d-1数字0填充。因此,当设置不同的扩张率时,接受域将不同。上述过程可以捕获多尺度信息。扩张卷积公式如(7)所示。
公式7
𝑑 表示膨胀因子(膨胀率),它根据凸函数变化。𝑑的值范围 在指数为2的范围内。增加𝑑 或𝐾 可以增加接受域的范围。然而,接受域使远距离卷积得到的信息与网络层的加深没有相关性,这意味着模型的局部信息丢失,导致局部信息丢失。因此,我们根据凸函数改变膨胀因子,如图6所示
d
d
d的变化。这种设计模式确保了在深度网络中感受野的范围受到一定的限制,减少了本地信息的丢失。密集神经元的信息传递使得模型在深层特征的计算过程中更加精确。
Multi-level residual structure
为了降低训练过程的复杂性,在传统的递归神经网络中,使用残差结构 residual structure代替门结构 gating structure,如图7所示。残差结构主要包括两层卷积网络和非线性映射过程。权重标准【31】是使用方法(重参数化权重标准化)来实现数据标准化。权重范数通常用于加速模型收敛。通过归一化权重,可以抑制梯度旋转时的梯度范围,实现梯度的自稳定。
我们使用Tanh作为卷积网络之后的激活函数,原因如下:
本实验中使用的 TRI 数据的值范围为[0,1]。加载数据后,执行Z分数标准化过程。Z得分公式如下。
公式8
X
X
X表示原始数据,
X
ˉ
\bar{X}
Xˉ表示平均值,
s
s
s表示标准差。通过Z评分的计算过程,节省了原始数据与平均值之间的差异。所以𝑍 的平均值等于0。𝑍 大于平均值的数据为正,𝑍 小于平均值的数据为负。TRI 数据标准化后,其最小值为−2.399,最大值为1.415。Tanh函数的平均值为0,这更有利于提高培训效率。因为Tanh的输出范围是[−1,1],参数的梯度值在训练过程中具有相反的符号,因此在更新权重时不容易出现锯齿现象,并且很容易达到最佳值【32】。
3.5. Post-processing
基于上述权重范数理论,我们在数据规范化过程中添加了批处理范数[33],以解决激活时间卷积层后数据量过大导致性能不稳定的问题。BatchNorm如公式(9)所示。
公式9
𝜇 和𝑣 分别是输入数据的平均值和方差。这个𝑒𝑝𝑠 是为提高计算过程的稳定性而添加的稳定因子,其值等于1e-5。gamma和beta是可以学习的系数矩阵。数据归一化过程可以使梯度方向下降到空间垂直轮廓的方向。上述过程可以提高模型的收敛速度,可以在特征计算中平均各级数据的权重,提高模型的精度。最后,完全连接层将网络计算的分布式特征映射到样本目标空间。
4. Experiment
4.1. Data preparation
本实验使用的TRI数据[2]的时间范围为2020年2月10日至2020年6月30日。TRI 数据的时间类型为连续的工作日。它包含了中国29个主要城市。通过对滴滴出行平台提供的海量交通数据进行拟合、交叉验证、加权得到TRI数据。它能科学、客观地反映城市交通活动。该指数的变化趋势可以反映交通活动的趋势,从而间接反映城市复苏的趋势。疫情数据包括29个城市的确诊病例数、疑似病例数、治愈病例数、死亡病例数4类数据和全国治愈病例数。流行数据的时间范围与TRI数据相同。疫情数据来自中国国家卫生健康委员会[34]。
4.2. Index comparison
Base lines
我们设置了三种类型的基线来验证模型的性能,包括传统的递归神经网络、时空神经网络和图形时空神经网络。所有模型都在同一个数据集上训练和评估。实验结果是多个训练和评价结果的平均值。实验中各种基线的模型结构如下:
- LSTM[35]:通过门控机制控制数据的传输状态。与传统的RNN只是机械地叠加一种记忆相比,LSTM保留了长期记忆,忽略了不重要的信息。
- GRU[36]:其输入输出结构与传统RNN相似,处理逻辑与LSTM相似。与LSTM相比,GRU内部少了一个门控,参数也比LSTM少,但能达到与LSTM相似的功能和精度。考虑到硬件的计算能力和时间成本,GRU是更多研究深度学习的研究者的选择。
- STDN[37]:利用本地CNN和LSTM计算时空信息。门控的局部CNN利用区域之间的动态相似性来建模空间依赖性。周期转移注意机制被用于学习长期周期依赖。最后,利用注意机制对长期周期信息和时间翻译进行建模。
- GCN[38]:它使用过滤器对某一空间区域内的像素进行加权求和,得到一种新的特征表示。加权系数是卷积核的参数。
- STSGCN[39]:由多个图卷积操作和一个聚合操作组成。每次图卷积运算的输出都将以类似于残差神经网络的方式添加到聚合层的输入中。使用最大池实现聚合。
- GCNN-DDGF[21]:使用传统的卷积网络和基于数据驱动滤波的图卷积网络来捕获空间相关性。它使用LSTM结构的递归块来捕获数据特征的时间依赖性。
- DCRNN[21]:在邻接矩阵设计过程中,利用有向图计算数据的时空特征。我们使用它的双向随机游走机制来计算城市之间的空间相关性,并使用编码器-解码器机制来计算数据的时间依赖性
- GEML[24]:它将城市区域划分为网格,但本工作针对的是多个城市之间的TRI关系,因此单个城市的网格划分不适用于本工作。我们只使用了GEML的模型结果,即多任务学习模块。
- DAGG[26]:不需要预先定义代表城市空间关系的邻接矩阵。在培训过程中,可以自动建立城市节点之间的相互依赖关系。
- T-GCN[19]:该模型结合了图卷积网络(GCN)和门控递归单元(GRU)。通过GCN学习复杂拓扑结构来获取空间相关性,通过GRU学习交通数据的动态变化来获取时间相关性。
- STGCN[17]:构建一个由连续的三层卷积网络和一层GCN组成的时空卷积块(ST-Conv block)。数据经过两层ST-Conv块处理。
- ASTGCN[18]:它使用一个由空间注意层和时间注意层组成的时空块(ST-BLOCK)。数据经过两层st - block处理。最后,它执行一个具有三个时间特性的全连接过程。
Index introduction
本实验采用均方根误差(RMSE)、平均绝对误差(MAE)和平均绝对百分比误差(MAPE)三个指标来评价模型的性能,如式(10)所示。
公式10
MAE和MAPE可以衡量模型预测结果的准确性,但它们都是基于绝对误差的计算过程。虽然绝对误差可以得到一个评价值,但我们无法知道这个评价值所代表的模型性能的优劣。只有通过模型之间的比较,我们才能知道最好的模型。因此,本实验的评价过程中也使用了RMSE。RMSE是用来测量预测值和真实值之间的偏差。它对一组数据中非常大或很小的错误非常敏感。因此,RMSE可以很好地反映[40]预测结果的精度。
各模型对三个指标的评价结果如表2所示。GRU和LSTM是传统的递归神经网络,性能最差。因为他们不能处理复杂的空间关系。STDN和GEML在传统递归神经网络模型的基础上增加了卷积网络来计算空间关系,提高了模型的精度。但它不是图结构模型,在本实验中没有显著影响。GCN适合于计算图结构的空间关系,但缺乏依赖计算时间特征的能力,因此性能不是最优的。本工作所用数据集的城市信息和TRI数据特征非常明显和丰富。与自动的DAGG图结构模型相比,本工作直接建立的邻接矩阵更有效。图时空神经网络(GCNN-DDGF, DCRNN, STSGCN, T-GCN, ASTGCN和STGCN)的基本过程是用GCN来计算空间关系,用递归神经网络来计算时间相关性。因此,在递归建模过程中无法获得数据的深度多尺度上下文特征。
与上述图神经网络相比,DeepTRI在时间的三个维度上具有显著的影响,误差最小。这是因为DeepTRI考虑了疫情数据对TRI变化的时空影响。与STGCN的三维时间指标相比,误差降低率如表3所示。当DeepTRI时间步长为2d时,折减比最大。这是因为DeepTRI的时间卷积层的因果卷积机制可以保留所有的历史信息,更适合长期的信息计算。
4.3. The effect of GDF
GDF在模型的训练过程中起着重要的作用。GDF的影响如图8所示。图8为两种模型100个epoch的损失值变化,实验参数完全相同。在训练过程的早期阶段,没有GDF的DeepTRI收敛非常缓慢。即使中期损失明显减少,但最终效果并不理想。在GDF的帮助下,DeepTRI可以快速收敛,并将训练损失维持在小的数值范围内,而不会过拟合。这是因为疫情数据与TRI具有明显的动态相关性,而GDF放大了二者的动态相关性。最后,GDF增强了模型对建模目标的加权特征。
4.4. Spatial-temporal results
本章主要针对模型实际结果比较中的两个欠拟合问题,包括边缘值欠拟合和局部峰[41]欠拟合。
Under-fitting of edge values
边缘值欠拟合的问题 意味着该模型对TRI中值的预测结果较好,但对较小或较大TRI的预测结果较差。这类问题如图9(a)、(b)、( c)所示,例如(a)中TRI的预测值在区间[48,78]中与真实值基本一致,而在区间[38,48]、[78,88]中预测值存在欠拟合问题。预测结果近似于一条直线。边值欠拟合问题反映在所有城市矩阵中。图10(a)和(b)表示了边缘值的空间宽度。产生这个问题的原因是数据集中的中间值重叠,特征比较明显,而边缘数据稀疏,边缘值之间的空间相关性不足。
图神经网络可以有效避免上述问题,如图11(a)所示。(a)是基于GCN的TRI建模结果,有效地避免了边缘值欠拟合的问题。GCN能够捕捉到图结构的空间关系,使得预测值对所有区间的数据都具有拟合能力。图11(b)和( c)显示了复杂图形时空网络的结果。从它们的比较结果可以看出,基于GCN的时空网络可以进一步抑制边缘值的欠拟合问题。特别地,T-GCN作为一个图时空网络,表现出一定程度的边值欠拟合问题。这是因为T-GCN使用一种门控机制来捕获数据的时间依赖性。它过于依赖历史数据,历史数据中边缘值的权重太小,最终导致上述问题。图12(a)和(b)分别表示了所有城市节点对较大边值和较小边值的拟合程度。我们可以知道,利用图卷积网络抑制了边缘值的空间宽度,每个城市节点显示出不同的数据变化。
Under-fitting of local peaks
局部峰值欠拟合问题是指当真实数据变化较大时,预测值出现欠拟合问题。虽然整体评价指标较好,但局部峰的预测结果较差,如图13所示。图13是图11(a)曲线的一部分。GCN的加入虽然解决了边值欠拟合的问题,但也带来了局部峰值欠拟合的问题。这是因为GCN只适用于图结构空间相关性的计算,而缺乏对时间序列递归关系的考虑。在图9中,传统的递归神经网络在TRI中值的时间依赖计算方面具有明显的优势。以STGCN为代表的图时空网络在预测边缘值和局部峰值方面具有优势。他们使用GCN来解决边缘值欠拟合的问题,使用递归网络来解决局部峰值欠拟合的问题。
Overall improvement
DeepTRI的预测效果如图9、10、11、12所示。图9和图10显示了DeepTRI在连续时间周期的单节点上获取时间序列特征的优越性。图11和图12显示了DeepTRI在同时捕获所有节点的空间特征方面的优势。由于空间卷积层可以建立节点之间的空间相对关系,增强城市节点的动态同步特性,DeepTRI的精度优于传统的递归神经网络。DeepTRI的时间卷积层依靠根据凸函数变化的扩张卷积来建立大范围的接收野,并依靠多层次的剩余结构来克服门控机制对历史数据的长期时间依赖性,因此其精度优于GCN。由于采用了特殊的GDF结构,将疫情数据与TRI数据按不同权重进行多尺度融合,使得数据特征的趋势更加明显,DeepTRI的精度优于其他图形时空网络。
5. Conclusion
新冠肺炎疫情是全人类共同应对的挑战。首先,新冠肺炎疫情的出现影响了人类活动。随着人类出行活动的减少,交通运输业的活力逐渐下降。由于交通运输业与城市经济发展密切相关,新冠肺炎疫情的出现严重打击了城市经济。研究TRI与新冠肺炎疫情的关系,对于政府部门掌握疫情期间城市交通和经济发展状况具有重要意义。我们利用现有的TRI和COVID-19数据,实现对未来城市交通活力的预测研究。特殊的GDF模块实现了TRI和COVID-19数据的多尺度融合,在建模过程中发挥了巨大的优势。我们依靠城市的位置信息建立图结构,在空间卷积层中充分探索城市节点之间的空间关系。特殊的时间卷积层充分利用了TRI与COVID-19时间相关性的特点。DeepTRI在面对两个不匹配问题时显示出明显的优势。然而,TRI数据的获取有一定的局限性。TRI数据以城市交通正常状况为边界值(一般为1),其含义是指城市发生重大事故影响城市交通运行并最终恢复正常状态的过程。因此,城市交通在正常运行的情况下,其TRI数据很难获取。本研究使用的TRI数据的时间范围为中国2020年2月10日- 2020年6月30日。新冠疫情出现在2019年底。但是,疫情初期没有引起人们的重视,相关防疫政策没有明确制定和实施。因此,在疫情初期,中国大部分城市的交通状况没有受到影响。随着疫情的发展,2020年2月至6月,中国实施了严格的防疫政策。与此同时,中国各城市的交通状况也从最糟糕的时候逐渐恢复正常。上述过程是本工作TRI数据的主要来源。在未来的工作中,我们将扩大数据规模,在全国范围内分析和预测TRI与COVID-19之间的关系,并选择更多的城市作为节点加入图结构。此外,当一个国家的城市数据足够多时,我们可以计算出这个国家受疫情影响的程度。我们认为,本研究的意义在于为未来公共安全灾害的分析和预测提供了一个参考工具。
T-GCN,文章理解见简书:《 T-gcn: A temporal graph convolutional network for traffic prediction》 ↩︎
DCRNN,文章理解见简书:《Diffusion convolutional recurrent neural network: Data-driven traffic forecasting》 ↩︎
我看过的:《 Predicting station-level hourly demand in a large-scale bike-sharing network: A graph convolutional neural network approach》 ↩︎