论文阅读笔记：DSTGCN-Deep spatio-temporal graph convolutional network for traffic accident prediction

ayuuuuu

已于 2022-10-24 15:17:38 修改

阅读量2.1k

点赞数 1

文章标签：论文阅读 1024程序员节

于 2022-10-22 16:08:04 首次发布

本文提出了一种名为DSTGCN的深度时空图卷积网络，用于道路级别的交通事故预测。模型利用图卷积处理空间信息，标准卷积捕捉时间动态，同时考虑了外部因素，如气象和交通流。在实际交通数据集上的实验表明，DSTGCN在预测准确性上优于传统的和最先进的方法。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

文章地址：https://doi.org/10.1016/j.neucom.2020.09.043

特点：道路级别而非网格，未使用RNN一类时间序列网络，残差网络

abstract：在现实世界中，交通事故通常会导致严重的人员伤亡和巨大的经济损失。及时准确地预测交通事故对保护公共安全和减少经济损失有很大的潜力。然而，由于交通事故具有复杂的因果关系，包括交通相关异质数据中的空间相关性、时间动态交互性和外部影响等多种因素，因此预测交通事故具有挑战性。为了克服上述问题，本文提出了一种新型的深度时空图卷积网络，即DSTGCN，来预测交通事故。所提出的模型由三个部分组成：第一个部分是spatial learning layer空间学习层，它对空间信息进行图卷积运算以学习空间中的相关性。第二部分是spatio-temporal learning layer空间-时间学习层，利用图和标准卷积来捕捉空间和时间角度的动态变化。第三部分是embedding layer嵌入层，旨在获得外部信息的有意义和语义的表示。为了评估所提出的模型，我们收集了大规模的真实世界数据，包括事故记录、全城车速、道路网络、气象条件和兴趣点分布。在真实世界的数据集上的实验结果表明，DSTGCN比经典的和最先进的方法都要好。

一、introduction

二、related work

2.1 traffic accident prediction

2.2 Graph convolutional network

2.3 Spatio-temporal neural network

三.Data preparetion and problem formalization

3.1 Data preparation

3.2 Problem formalization

四、Methodology

4.1 Feature extraction

4.2 Framework of the proposed model

4.3. Proposed model for traffic accident prediction

五、Experiments

5.1 Experimental setup

5.2 Experimental results

5.3 Computation cost analysis

六、Conclusion

一、introduction

交通事故预测难点：首先，交通事故只发生在附近的道路上，预测的粒度应该指定在道路一级，这在现实世界的场景中更有意义。其次，有多种因素可能与交通事故有关，如司机行为、天气状况、交通流和道路结构。尽管一些研究者已经研究了引起交通事故的关键因素[5,6]，但他们没有考虑间接因素，交通事故的复杂机制仍然不清楚。第三，交通事故的发生比正常安全出行的发生的样本稀疏得多，导致缺乏精确的交通事故预测的正样本。样本的不平衡性大大增加了模型训练过程的难度。

为了解决上述问题，本文提出了一个深度时空图神经网络，即DSTGCN，旨在预测未来特定路段的交通事故风险。首先，为了预测道路层面的交通事故，我们根据所研究地区的细粒度道路结构构建了一个图，并基于该图进行预测。其次，我们收集与交通事故相关的大规模异质数据，包括天气状况、交通流量、道路结构、兴趣点（POI）分布和交通事故记录。然后，我们设计了一个深度时空图神经网络，将这些数据同时作为输入，发现引起交通事故的机制的空间相关性和时间依赖性。此外，还应用了一种数据抽样方法来处理不平衡样本的问题。最后，在现实世界的交通数据上的实验结果表明，所提出的模型比经典的和最先进的方法都取得了更好的性能。

本文的其余部分组织如下。第2节回顾了与本文相关的现有研究。第3节介绍了背景知识、问题的形式化，并描述了用于评估模型的数据集。第4节介绍了特征提取过程和提出的模型。第5节展示了实验结果并讨论了不同特征和模型结构的影响。第6节总结了整个论文。

二、related work

2.1 traffic accident prediction

作者认为可分两类，一类是机器学习实现，如文献[7\8\9\10]：他们主要应用经典的机器学习方法，通过从交通事故数据中提取手工设计的特征来进行预测。然而，交通事故是由许多复杂因素造成的，包括交通流量、气象条件、道路网络等。如果不考虑时空相关性和外部信息，预测的准确性和模型的性能就相对不理想。

最近则集中在深度学习模式，如文献[11\12\13]，所有现有的基于深度学习的交通事故预测方法都局限于估计常规网格单元的交通事故风险，这在现实世界中是不合理的，因为交通事故只发生在道路网络附近。尽管Yuan等人[13]采用了道路网络屏蔽层将模型的最终输出映射到道路网络上，但预测过程仍然局限于网格层面，因为过滤屏蔽层只是一个简单的AND操作。

2.2 Graph convolutional network

CNN只适应常规格式的欧式空间，不适应非欧式空间的图结构，GCN对此的相关研究被提出，Zhou等人[17]和Wu等人[18]进行了系统的调查，并在一个统一的框架下总结了现有的GNN方法。GCN可以分为spectral-based模式和spatial-based模式。

基于频谱的方法，建立在图信号处理理论之上[19]，以图的频谱表示来工作。为了研究图的拓扑结构（如连通性），这种方法通过傅里叶变换将原始图转换成代数形式，并在变换的空间中更新节点的特征。

基于空域的方法，直接在图上定义卷积操作，并将中心节点及其邻居的表示进行卷积，以获得中心节点的新表示，这受到了图像上的CNN的卷积操作的启发[20]。基于空间的方法保持了CNN的局部不变性，因为学习过程可以被看作是基于边的节点之间的信息传播，它不受节点的操作顺序的影响。GCN已经成功地应用于广泛的现实世界的应用。例如，在及时交通预报方面，Yu等人[21]构建了时空图卷积网络（STGCN），该网络以较少的参数提供了较快的训练速度和较高的精度。在医疗保健领域，Li等人[22]提出了一种基于骨架的动作识别的时空图卷积（STGC）方法。由于GCN的优势，我们在一个基于图的框架下预测交通事故。

2.3 Spatio-temporal neural network

介绍了一些深度时空模型，如文献[25\26\27\28]，但并不全是应用在交通事故预测的。

三.Data preparetion and problem formalization

3.1 Data preparation

Traffic Accident Data交通事故数据。北京的交通事故记录是在2018/08/01至2018/10/31期间每小时收集一次，由交通事故的时间戳和地点组成。如图1所示，事故发生位置与城市道路网络密切相关，这说明现有的基于CNN的交通事故研究工作忽略了路段之间的空间相邻性，是不合理的[11-13]。（事故发生时间、地点）

Taxi GPS Data出租车GPS数据。北京出租车GPS数据是在2018/08/01至2018/10/31期间获得的，每5分钟记录一次。除了时间戳和位置之外，出租车GPS数据还包含每辆出租车的速度。（交通流时间、位置、速度）
POI DataPOI数据。POI是指为某人提供特定服务的具体点位，如购物中心、工厂或居住区。我们收集的POI数据集包含了362028个北京的POI，包括POI的名称、位置和类别信息。表1显示了北京地区前10种类型的POI。（POI的名称、位置、类别）

Meteorological Data气象数据。我们从wun derground.2中抓取了气象数据，该数据集由天宁寺站（39:86 N, 116:28 E）在2018/08/01至2018/10/31期间收集，每小时记录一次。该数据集包含气象信息，如温度、天气类型等。图2(a)显示了交通事故频率与温度之间的关系，图2(b)呈现了不同天气条件对交通事故频率的影响。从图2可以得出结论，较高的温度和较恶劣的天气状况更容易导致交通事故的频繁发生。（温度、天气类型）
Road Network Data路网数据。我们还使用了北京的路网数据。这些数据包含了北京道路网的基本信息，如名称、每条道路包含的点的集合、道路交汇点和道路长度。

数据集的更多细节见表2。

3.2 Problem formalization

本文定义了一个无向图G=(V,ε,A )，V表示N个路段的集合；E代表边的集合，表示路段之间的成对连接；A是邻接矩阵，相邻为1，不相邻为0。

交通事故预测的目标是根据历史记录预测指定路段vi的下一时期的事故风险。表3列出了本文中使用的主要特征符号。更多关于交通网络生成和特征提取的细节将在第4.1节介绍。

对于路段vi，可以通过以下两个步骤估计T+1时隙的下一期交通事故风险。

Feature extraction特征提取。影响因素被分为三类：空间特征（包括道路静态特征、POI特征），时间特征（包括交通速度特征），外部特征（包括天气特征、日历特征）。

Model prediction模型预测。对于区域Vi，结合可训练的权重与区域特征Xi、邻居区域特征Xneighbors预测T+Z时刻交通事故可能发生情况。

四、Methodology

4.1 Feature extraction

4.1.1 Road network graph generation

本文使用的原始路网G数据由[29]提供，由一组节点作为交叉口，一组边作为连接节点的路段，并计算边的长度。我们的目标是预测道路层面的交通事故，因此应将道路视为图中的节点。在这里，我们通过提供的边E构建节点集V，即第i个节点vi对应第i条边ei。然后，当道路段vi和vj在V中以交点连接时，我们通过在vi和vj之间添加一条边来构建边集E。

4.1.2. Extraction of spatial features

空间特征由road structure features道路结构特征Xsi和POI distributionPOI分布Xpi构成，描绘出每个路段的局部空间特征，对交通事故风险有着直接或间接的影响。

Xsi：每个路段的道路结构特征Xsi代表道路结构的属性，它被认为会直接影响交通事故风险，因为条件更复杂的道路往往更容易发生交通事故。我们将属于每个路段的点的位置平均化，作为道路的地理位置。然后，对每个路段提取与道路结构有关的特征，包括道路长度和包含点的数量。

Xpi：每个路段vi的POI分布Xpi描述了它的局部围合情况，假定它以间接方式影响交通事故风险。例如，被娱乐中心或停车场包围的道路可能比安静的公园附近的道路有更高的交通事故风险。由于POI的分布很好地捕捉了路段的特征，我们利用POI数据并提取POI的特征用于交通事故预测。一组20种类型的POI被考虑在内。路段附近每一类POI的数量计算如下：

4.1.3. Extraction of temporal features

时间特征在时间上影响交通事故的风险，因为它可以反映每个路段的历史交通状况 vi。

直观地说，交通流的速度与交通事故的发生概率密切相关。因此，我们在每个时段t计算每个路段vi的平均交通速度，用Xvt i表示。由于出租车数据的规模较大，对每个路段进行逐级穿越是昂贵而不可行的。因此，我们首先将研究区域划分为同等大小的网格，通过平均每个网格内的出租车速度来计算每个网格在每个时间段的交通速度。然后，我们将每条道路分配给它所属的网格，最后将该网格的交通速度分配给道路，作为它自己的交通流速度特征。每个网格是一个d×d的正方形，每个道路段vi的交通速度由其所在的网格决定。而d是前述的超参数，用于调整每个路段的范围。我们使用预测时间前24小时的速度，每小时对应一个时间特征的维度。

4.1.4. Extraction of external features

本文考虑的外部特征是由气象特征Xm和日历特征Xc组成的。我们不使用下标i来区分不同的道路，因为所有的道路在同一时间戳都有识别的外部特征。

Xm：从经验上看，气象特征Xm可能容易影响交通事故，因为恶劣的天气（如雪、雾、雨）可能会增加交通事故的风险，见图2。因此，我们考虑了8个气象因素，包括天气类型、天气温度、露点、湿度、气压、风速、风向和视温。在这些因素中，天气类型和风向是分类属性，分别有14和18个值，而其他的是数字属性。我们利用单热编码来表示天气类型和风向。让Xmt表示所有路段共享的时隙t的气象特征。由于未来时间T+1的气象情况在时间过去之前是无法得到的，所以我们在本工作中采用时间T的气象特征来近似地表示未来的气象特征。

Xc：日历特征Xc（如月份、星期、工作日或周末、小时）也可能对交通事故的频率产生影响，因为它在一定程度上反映了交通行为的周期性。让Xct代表时隙t的日历信息，包含五个特征，其中包括月、日、星期、小时和是否是周末。

最后，我们可以为每个路段生成89个特征，包括22个空间特征（2个道路结构特征和20个POI特征）、24个时间特征（24个交通流速特征）和43个外部特征（38个气象特征和5个日历特征）。

4.2 Framework of the proposed model

图3说明了我们提出的方法的框架。交通网络G是利用道路网络数据生成的。然后，从异质数据（即道路网络、出租车GPS数据、气象数据、交通事故记录、POI）中提取所有路段的特征。由于不同的特征对未来交通事故的发生概率有不同的影响，我们将提取的特征分为三类：空间特征，可以反映路段的空间局部特征；时间特征，记录每个路段的历史交通状况；外部特征，描述外部影响因素。

对于每个训练样本，DSTGCN首先基于三个部分处理不同类型的特征，分别是空间卷积层、时空卷积层和嵌入层。然后，将处理后的隐藏特征串联成一个紧凑的表示，并输入全连接（FC）网络，以学习不同特征之间的相互作用，并预测下一时期的交通事故风险。最后，为了评估所提出的模型，我们在真实世界的数据集上进行了实验。提出的DSTGCN与经典的和最先进的基线进行了比较，并研究了不同特征和模型结构的影响。

4.3. Proposed model for traffic accident prediction

拟定模型的结构如图4所示，由三个基本模块组成：空间卷积层、时间卷积层和FC层。接下来，我们将分别介绍用于空间特征、时间特征和外部特征建模的基本模块和三个组件。

4.3.1. Basic modules

我们通过三种类型的基本模块来构建我们的建议模型。由于FC层是简单的线性变换和激活函数，空间卷积层和时间卷积层将被阐述如下：

Spatial Convolution Layer空间卷积层：

由Graph Conv、BN和ReLU组成，图卷积聚集了来自路段vi及其邻域的空间信息，批量归一化[31]被用来提高我们的模型在初始化时的鲁棒性，并加快训练速度，同时使用ReLU激活函数来捕捉非线性相关性。

空间卷积层的计算可以表述为：

Temporal Convolution Layer时间卷积层：

虽然图卷积操作在空间维度上捕获了图上每个节点的相邻信息，但在时间维度上进一步采用标准卷积层，通过合并连续时间段的信息来更新节点的信号。其计算可以表述为

4.3.2. Fusion of multi-perspective features

Spatial Component空间部分：

空间部分由几个空间卷积块构成，一个空间卷积块由几个空间卷积层组成。

（空间卷积块）

为了应对梯度消失/膨胀的问题，我们采用了残差学习框架[32]。在叠加空间卷积块后，学习到的空间信息表示为Xs，其中Fs表示空间分量输出的维度。为了估计路段vi的交通事故风险，我们选择其相应的表示，用Xsi表示。

Temporal Component时间部分：

时间部分组件由几个空间-时间卷积块组成。每个时空卷积模块都是由一系列堆叠的空间卷积层和一个时间卷积层组成。

（时空卷积模块）

为了缓解梯度消失问题并加强特征传播，我们按照[33]的建议将时空卷积块组织成密集连接。这些块将Xtemporal作为输入，并提供学习到的隐藏时间信息的表示方法Xt，其中Ft表示空间-时间卷积块的输出维度。

为了将时间信息汇总到一个紧凑的表示中，我们采用了一个average pooling method平均汇集方法。具体来说，对于路段vi，它的时间表示方法是：

External Component外部组件部分：

在提取的高维外部特征中可能存在一些噪音。为了去除无用的信息并学习有意义的外部特征表示，我们在外部组件中采用了一个嵌入层来学习密集的表示。

从本质上讲，嵌入层由几个堆叠的FC层组成，每个FC层可以略微降低原始特征的维度。对于道路vi，我们将外部特征xexternal送入嵌入层，让Xei表示外部特征的嵌入表示，其中Fe表示嵌入层输出的维度。

在得到这三个部分的输出后，我们通过concatenation运算将空间、时间和外部信息融合在一起，形成一个融合的表示。然后，我们将融合后的表征送入输出层，预测下一阶段的交通事故风险：

五、Experiments

5.1 Experimental setup

我们首先提出了一种处理样本稀少的undersampling method下采样方法。然后我们介绍了实验中的模型配置。最后，我们讨论了evaluation metrics评估指标和baseline基线，以便与提议的模型进行比较。

undersampling method下抽样方法。交通事故的发生是比较稀疏的，这意味着只有一小部分的道路在特定的时间发生过交通事故。如果我们直接在整个构建的道路图上预测每条道路的风险，由于正样本的稀少，模型往往会提供全部为零的结果，性能不尽人意。为了解决样本稀少的问题，我们采用了负样本欠取样的方法。对于每条交通事故记录，我们首先确定事故发生的道路，然后根据道路网络数据建立一个包含该道路及其k-hopb邻居的道路网络。之后，我们提取该道路及其k-hop邻居的空间、时间和外部特征。按照上述步骤，我们可以得到一个包含道路和它的k-hop邻居及其特征的图，并将其作为一个正样本。我们继续进行这个过程，直到考虑到所有的交通事故，最后得到阳性样本的集合。之后，我们随机选择一条在特定时期内没有发生交通事故的道路，按照上述步骤提取信息，生成一个负样本。最后，当阴性样本的数量与阳性样本的数量相等时，下抽样过程就结束了。根据提取的目标路段及其k-hop邻居的空间、时间和外部特征，我们的模型预测目标路段是否会发生交通事故。如果那里发生过交通事故，我们就把它的基本事实标记为1，否则为0。

baseline基线。LR, LASSO, SVM and DT are treated as classical machine learning models. SdAE and TARPML are classified into state-of-the-art models。事实上，一个生成的训练样本包含了需要预测的道路的空间特征、时间特征和外部特征以及它的k-hop邻居，它们被组织成一个图结构。由于基线不能将带有拓扑信息的图结构数据作为输入，我们对图的拓扑结构进行如下处理，然后将非拓扑数据输入基线。具体来说，对于空间和时间特征，我们将预测的道路和它的k-hop邻居的相应信息平均化，从而分别得到两个空间和时间特征向量。对于非拓扑结构的外部特征，以及研究区域内道路共享的特征，我们只需要保持矢量化的表示。最后，我们将获得的三个矢量表征归纳为一个互动矢量，可以输入非图基线。值得注意的是，我们没有考虑[13]中的深度学习模型，因为他们的模型主要依赖于基于常规网格数据的标准卷积操作，这不适合我们的实验。

evaluation metrics评估指标：RMSE(Root Mean Squared Error), PCC(Pearson’s Correlation Coefficient), Precision; Recall; F1 Score, AUC(Area Under the Curve).

如果一个模型具有较低的RMSE，较高的PCC；精确率；召回率；F1得分和AUC，则被认为是一个更好的模型。由于F1得分是一个更全面的指标，我们利用该指标来选择更好的模型。在验证集上获得最高F1得分的模型被选为测试的最佳模型。请注意，我们的模型旨在提供一个从0到1的下一期交通事故概率，可以被视为一个回归任务，像RMSE和PCC等指标可以直接计算。此外，如果我们选择一个阈值，将预测风险的道路投射到一个积极或消极的类别，我们就可以使用一些分类任务的指标来验证模型的性能。因此，在本文中，我们选择阈值为0.5，如果一条道路的预测风险高于0.5，那么它就被视为正样本，否则就是负样本。因此，我们不仅使用回归指标，还使用分类指标来进行更全面的比较。

Implementation Details实施细节。据统计，在训练、评估和测试数据中，分别有1234251、178414和350851个节点参与。为了计算交通流速，d的值被设定为222米，因为一个经度或纬度对应约111公里，所以222米大致等于0.002个经度或纬度。我们对k值设置为5、10、15和20进行了试验，当考虑10跳邻居时，模型表现最好。所以我们在实验中设置k为10，这意味着我们考虑每条道路的10跳邻居的影响。70%的数据被选为模型训练集，10%的数据被选为验证集，用来提高我们模型的泛化能力，防止模型过度拟合。剩下的20%被选为测试集。因为数据集非常大，所以我们选择保留法而不是交叉验证法。交叉验证法需要多次训练-测试分割，并且比保持法需要更多的时间和计算能力来运行。为了进行公平的比较，我们对所有模型使用相同的规则来分割训练集、验证集和测试集。我们还利用Z-score对输入数据进行标准化。

表4显示了所有方法的超参数的网格搜索情况。对于所提出的DSTGCN，前两个空间卷积块都是由四个空间卷积层组成，并有跳过连接。最后一个块由五个空间卷积层组成，以减少特征维度。每个时空卷积块由五个空间卷积层和一个时间卷积层组成，块之间用密集连接。批量大小被设定为64。空间、时间和外部特征的隐藏维度分别设置为10、20和10。实验中采用Adam[38]作为优化器。在训练过程中，BN层不断运行其计算的平均值和方差的估计值，其参数是固定的，用于验证和测试的归一化。该模型是用PyTorch3框架实现的。我们在GitHub平台上公开了该代码。

5.2 Experimental results

我们首先将我们的方法与基线进行比较，然后评估不同特征的影响。我们还研究了我们提出的模型的结构的影响。

Model Comparison.对每个基线模型run了十次，选取均值±标准差来表示，如果差值太小即±0。其结果如表5所示：

从结果来看，可以总结出一些结论。首先，SVM显示出比LR和LASSO更好的性能，因为它设计了kernel trick内核技巧来寻找最佳的线分离器间隙，并且在学习复杂的非线性函数方面更强大。在经典的机器学习模型中，DT在大多数指标上都比其他模型表现得更好，因为DT更善于选择与交通事故相关的更重要的特征，并且对输入中的噪声不敏感。第二，TARPML比SdAE表现更好，因为TARPML利用RNN结构来学习时间信息，而SdAE忽略了时间特征中的动态影响。第三，深度学习模型获得了比经典机器学习模型更好的性能，同时证明了深度架构在复杂关系船的建模能力。深度学习模型的标准偏差在一个小范围内变化，这表明这些模型的稳定性。

最后，我们可以看到，DSTGCN在所有的评估指标上都优于其他方法。我们将这一现象归结为两个原因。1) DSTGCN设计了合适的模块来分别处理时空信息，这使得DSTGCN不仅能够考虑空间影响，还能考虑异质数据中的时间相关性。2) DSTGCN采用了嵌入层来去除噪音和学习外部信息的语义表征，这使得模型更加稳健。值得一提的是，DSTGCN与现有方法的主要区别在于DSTGCN考虑了道路的拓扑结构，这有助于模型利用更全面的信息，提高最终预测性能。

Effects of Different Features.为了研究不同特征对模型性能的影响，我们手动删除了相应的空间、时间和外部特征，并基于剩余的特征计算评价指标。表6显示了去除不同特征后的模型性能。从表6中我们可以看出，删除任何一类特征都会导致模型性能的下降。空间特征反映了建筑物的分布和道路结构，时间特征包含了交通流的动态变化，外部特征提供了全球属性，如气象条件和日历表示。将所有的特征作为输入将为拟议的模型提供足够的信息，以发现隐藏的交通事故影响因素并获得更好的结果。

Effects of Model Structures.模型结构的影响。为了研究模型结构对模型性能的影响，我们分别手动删除了空间层、时空层和嵌入层的外部特征，并对其余结构进行了实验。其性能如表7所示，其中S；ST和E分别代表空间层、时空层和嵌入层。从表7中，我们可以得出结论，DSTGCN中的每个结构都对模型性能有自己的贡献，去除任何结构都会取得更差的结果。DSTGCN将上述结构整合在一起，采用空间层来描述空间信息的影响，设计空间-时间层来捕捉时间信息的动态变化，并利用嵌入层来融合外部辅助信息。所有这三种结构共同作用，实现了最佳性能。

5.3 Computation cost analysis

为了比较不同方法的效率，我们在本小节中分析了每个模型的计算成本。经典的方法（LR、LASSO、SVM和DT）比最新的方法（SdAE和TARPML）花费的时间更少，因为它们需要训练的参数少得多。然而，它们得到的结果并不令人满意，因此在准确预测交通事故方面是不可行的，没有必要估计经典方法的计算成本。因此，我们比较了所提出的DSTGCN与SdAE和TARPML的计算成本，以显示哪个模型更有效。估算执行时间的实验是在Ubuntu机器上进行的，该机器配备了两个Intel(R) Xeon(R) CPU E5-2667 v4 @ 3.20 GHz，有8个物理核心，GPU是NVIDIA TITAN Xp，配备了12GB的GDDR5X内存，运行速度超过11Gbps。实验结果显示在表8中。

从结果中，我们可以看出，SdAE需要更多的时间来训练，因为它首先要预训练堆叠去噪自动编码器来学习特征的隐藏表示，然后利用标签来训练其输出层。DSTGCN在每个训练历时中比TARPML花费更多的时间，它们往往在相同的迭代次数中收敛。与TARPML相比，DSTGCN采用了图卷积来考虑道路及其邻居的空间相关性，空间因素的聚集可能导致DSTGCN的训练速度比TARPML慢一点。然而，所提出的DSTGCN仍然比TARPML有两个优势。首先，更重要的是，DSTGCN在广泛的评估指标上优于TARPML。第二，TARPML中的RNN结构需要按顺序处理，因为后续的步骤取决于之前的步骤。然而，DSTGCN不使用递归结构，DSTGCN中的卷积可以通过parallel平行技术（例如，在同一时间对序列的多个位置应用相同的过滤器）来加快。

六、Conclusion

在本文中，我们研究了交通事故的问题，并提出了一个新颖的基于图的时空模型来预测未来交通事故的风险。为了实现这一目标，我们收集了大量的数据，包括交通事故记录、出租车GPS、POI分布、气象观测以及道路网络，并提取了相关特征。所提出的模型由三部分组成：空间层被设计成覆盖空间特征中的空间相关性；空间-时间层被用来捕捉时间特征中的空间关系和时间依赖性；嵌入层被用来学习外部特征的有意义和密集的表示。在真实世界的数据集上的实验表明，所提出的模型比现有的方法更有优势。减少交通事故的风险对城市交通和公共安全至关重要，所提出的模型可以应用于提前警告潜在的危险，帮助人们选择更安全的旅行路线。