论文阅读笔记:Traffic Anomaly Prediction Based on JointStatic-Dynamic Spatio-Temporal EvolutionaryLearning

基于静态-动态时空联合进化的交通异常预测学习

代码:GitHub - zwzhangzzz/SNIPER: SNIPER_tensorflow

实在看不懂它是怎么对数据预处理的,,,有空再看吧,,,

摘要:

准确的交通异常预测提供了一个在正确的位置及时拯救伤员的机会。然而,交通异常的复杂过程受到各种静态因素和动态相互作用的影响。最近不断发展的表征学习为理解这一复杂过程提供了新的可能性,但也面临着数据分布不平衡和特征异质性的挑战。为了解决这些问题,本文提出了一个名为SNIPER的空间-时间演化模型,用于学习错综复杂的特征互动,以预测交通异常情况。具体来说,我们设计了空间-时间编码器,将空间-时间信息转化为矢量空间,表明它们的自然关系。然后,我们提出了一种时间上动态演化的嵌入方法,以更多地关注罕见的交通异常情况,并开发了一个有效的基于注意力的多图卷积网络,从三个不同的角度制定空间上的相互影响。考虑到时空影响,采用FC-LSTM来聚合异质特征。最后,设计了一个损失函数来克服 "过度平滑 "和解决不平衡数据的问题。大量的实验表明,SNIPER在芝加哥数据集上的平均表现为3.9%、0.9%、1.9%和1.6%,在纽约市数据集上的平均表现为2.4%、0.6%、2.6%和1.3%,指标包括AUC-PR、AUC-ROC、F1得分和准确率。

1 introduce

数据分布不平衡是进行准确预测的最大障碍之一。正常交通事件的数量远远多于交通异常事件的数量。更重要的是,交通异常的复杂动态过程受到各种时空因素的影响,这使得交通事故难以预测。因此,尽管交通安全问题已经引起了社会的极大关注,但很少有人通过使用充足的公开的时空数据集来关注交通异常预测问题。最近,Zhang等人[2]提出了一个多任务深度学习框架来预测交通流量,他们采用卷积神经网络(CNN)来有效提取基于网格的区域特征。为了对空间和时间关系进行建模,Yao等人[3]提出了一个深度多视图时空网络,该网络利用了循环神经网络(RNN)的优势,通过考虑时间周期性来提取时间特征。此外,Wang等人[4]提出了GSNet,从地理和语义方面学习时空关联,用于交通事故风险预测。

[2] J. Zhang, Y. Zheng, J. Sun, and D. Qi, “Flow prediction in spatio-temporal networks based on multitask deep learning,” IEEE Trans[1]actions on Knowledge and Data Engineering, vol. 32, no. 3, pp. 468– 478, 2019. 交通流预测

Flow Prediction in Spatio-Temporal Networks Based on Multitask Deep Learning 学习笔记_凉城予梦的博客-CSDN博客

[3] H. Yao, F. Wu, J. Ke, X. Tang, Y. Jia, S. Lu, P. Gong, J. Ye, and Z. Li, “Deep multi-view spatial-temporal network for taxi demand prediction,” in Proceedings of the AAAI Conference on Artificial Intelligence, vol. 32, no. 1, 2018. 出租车需求预测

【论文笔记】Deep Multi-View Spatial-Temporal Network for Taxi Demand Prediction_煎饼证的博客-CSDN博客

[4] B. Wang, Y. Lin, S. Guo, and H. Wan, “Gsnet: Learning spatial[1]temporal correlations from geographical and semantic aspects for traffic accident risk forecasting,” in Proceedings of the AAAI Conference on Artificial Intelligence, vol. 35, no. 5, 2021, pp. 4402– 4409.

过去的研究忽略了:

1.静态特征与动态特征的结合。如图1所示,交通异常现象受到静态特征嵌入的影响,而事件之间的相互影响则随着时间的流动而动态变化。如何共同学习静态特征和动态特征的表示,对交通异常的预测非常重要。然而,许多工作[5],[6],[7],[8]只利用时空数据,如兴趣点(POI),天气状况,和交通流量等,作为机器学习方法的静态特征来预测可能的异常情况。他们忽略了地点和事件之间的动态互动过程,其嵌入的特征在时间上是变化的,在空间上是相互影响的。

2.不平衡的数据分布。如前所述,与正常的交通相关数据相比,交通异常数据在空间和时间上都是非常稀疏的。需要注意的是,虽然交通异常数据是稀疏的,但异常数据之间总是存在着联系或可追踪的模式。大多数现有的方法[9]、[10]、[11]、[12]都忽略了这一现象,只是在不平衡的数据上训练他们的模型,这很难捕捉到交通异常的内在模式。

3.动态计算过程中的演变策略。一些最新的工作[13], [14], [15], [16]提出通过说明事件在时空维度的发生率来描述事件的动态过程。但是,不平衡的数据分布,特别是那些有少量异常的数据,使得最近的动态模型很难学习交通异常的表现。换句话说,这些算法缺乏应用进化策略来更新交通异常的动态特征的能力,以捕捉正常和异常之间的差异。

图1.基于静态-动态联合时空演化学习的交通异常事件预测图示。交通异常事件的预测是基于静态嵌入和动态嵌入,这是由联合时空进化代表学习模型得到的。红色箭头表示进化过程中动态嵌入的更新操作,而绿色箭头表示衰减操作。静态嵌入是对当前交通特征的直接编码,这些特征描述了当前交通事件和位置的静态属性,是由传感器或其他装置直接获得的,如POI、天气状况和统计交通流量等;而动态嵌入是从开始时间到当前时间的演化,以编码时间变化的属性,它可以捕捉时间线上的异常交通事件之间相互递归的关联和依赖。动态嵌入的演化过程包括基于静态嵌入的条件更新和随时间流动的连续衰减。如红框所示,动态嵌入是通过聚集当前静态嵌入来更新的,即交通异常发生在凌晨0:45的位置。然后,当不存在交通异常时,动态嵌入就会衰减,这在绿框中显示。动态演变的过程也由时间线下的三条线表示,其中包括突然增加和持续衰减。通过这种方式,动态嵌入利用当前的静态嵌入和历史动态信息来描述异常事件之间的时间依赖性。 

本文实现:

表征学习算法:我们提出了一种联合的静态-动态时空特征表征学习算法来预测交通异常。详细来说,我们开发了一个时间上动态演变的特征嵌入模型,并设计了一个空间上相互影响的表征学习网络。考虑到这两种特征的时空依赖性,用一个带有全连接层的FC-LSTM模型[17]来融合这两种类型的特征。

演化策略:我们设计了一个条件演化策略,在双时空信息编码器的基础上计算更新和衰减,以区分异常和正常事件,提高训练效率。

损失函数:我们设计了一个动态损失函数,并将其与改进的焦点损失结合起来,通过基于历史碰撞信息的动态特征演化过程的重新调整来解决数据分布不平衡的问题。

突出的性能:所提出的算法SNIPER在预测基于两个真实世界的大型数据集的流量异常方面优于5种基线算法和5种最先进的算法。详细来说,在芝加哥数据集上,它的平均表现超过了最先进的方法,在AUC-PR、AUC-ROC、F1得分和准确率方面分别为3.9%、0.9%、1.9%和1.6%;在纽约市数据集上,平均为2.4%、0.6%、2.6%和1.3%。

3.problem definition

定义1(交通异常)。交通异常是指会扰乱正常交通模式并导致危险交通状况的事故事件。在本文中,交通异常被狭义地定义为交通碰撞事件。换句话说,一个交通异常事件意味着在该时间间隔内,在某一区域至少有一个交通碰撞事件。而我们将没有交通碰撞定义为正常的交通事件。

定义2(城市分割)。一个城市根据纬度和经度被平均划分为i×j个网格。我们观察到,机动车碰撞很少发生在一些网格中,如公园和湖泊。因此,我们忽略了这些无效的信息,主要关注可能发生碰撞的N≤i×j网格。通过这种方式,可以根据要求改变i或j来提取不同分辨率的交通特征。

定义3(静态嵌入)。静态嵌入是对当前交通特征的直接编码,如POI、天气状况和统计交通流量等,它描述了由传感器或其他装置直接获得的当前交通事件和位置的静态属性

定义4(动态嵌入)。动态嵌入被提出来编码交通事件之间的时变特性和临时动态的相互影响,它聚集了当前的静态嵌入(更新)和随时间演变(衰减)。它反映了异常频率,并捕捉到时空交错的交通事件之间相互递归的相关性和依赖性。

网格原始特征Ot,网格差异特征Dt,拼接得到静态嵌入Xst;基于时间演化模型学习动态嵌入Xdt;静态嵌入与动态嵌入拼接得到Xt。

4 Methodology

为了预测基于多个公开数据的交通异常,我们提出了一个名为SNIPER的静态-动态时空表示联合学习模型。图2描述了SNIPER的主要深度学习网络结构。在将数据嵌入到基于编码的时空信息的静态表征和动态表征中后,我们设计了一个演化策略来制定事件的时间动态过程。然后,利用具有关注机制的多图卷积网络,从不同的角度来制定事件之间的相互空间影响,如POI、历史异常和交通流等。采用FC-LSTM与全连接层相结合的方法,将不同图的融合表示转化为预测结果。并提出了一个由动态损失函数和改进的焦点损失函数组成的损失函数来解决不平衡数据的问题。

4.1 Spatio-temporal Information Encoding

时空信息是描述交通异常现象之间相互影响的关键因素,其相互影响随着时间和距离的变化而非线性变化。为了捕捉这些相互作用的动态模式,我们分别设计了一个基于网格的空间编码器和一个相对时间编码器。

4.1.1 Grid-based Spatial Encoder

一个城市被划分为N个网格,一个网格的位置信息由其中心的纬度坐标lat和经度坐标llon来表示。受位置编码方法[44]可以区分句子中的简单顺序的启发,我们设计了一种二维的位置编码方法来表示lat和llon。

以Llat为例,被编码为1XD的向量,详细来说,它的位置编码可以用基于奇偶序列的正弦和余弦函数来计算,即为:(公式(2))

不懂!!

4.1.2 Relative Temporal Encoder

时间信息,特别是流量异常的时间戳,对时空数据挖掘意义重大。相对异常发生时间表示当前时间t和开始时间t1之间的时间差。受时间图表示学习的启发[45],我们使用相对时间编码方法取代绝对时间位置来捕捉额外的时间信息,这可以表明事件之间的动态内部模式。时间编码函数被定义为ZE(t)。

4.1.3 静态嵌入的多源特征融合

让Ot∈R N×D表示时间戳t的网格原点特征表示,包括POI、天气状况、交通流量等。考虑到每个网格的历史观测数据,我们通过计算当前样本与过去n个正常样本的平均值Ol(ti,nor)之间的网格原点特征之差,得到网格差异特征表示Dt∈R N×D,其定义为【公式(6)】

网格差异特征表示Dl t∈R D描述了当前样本在网格l上与正常样本的偏离程度,这意味着异常事件往往比正常事件具有更大的Dl t。

为了获得静态嵌入,时空信息编码与聚集的网格特征相融合【公式(7)】

4.2 Temporally Dynamical Evolving Embedding

动态嵌入被用来表示事件列表中沿时间线不断演变的互动,它基于过去的信息更新当前的学习表示。对真实世界数据集的初步分析显示了不平衡的数据分布,其中异常交通事件所占的比例很低。在训练过程中,不平衡分布会导致现有方法的 "过度平滑 "问题[36],这些方法只依赖于时空相邻事件之间的相互作用来学习事件模式。详细地说,在不平衡数据上运行的表示算法,由于正常事件的比率非常高,在演化过程中使潜伏嵌入越来越相似,而忽略了罕见的异常事件的重要信息,这加剧了预测任务的性能。

如图3所示,为了捕捉不平衡数据中的流量异常影响,我们设计了一种演化策略,在整个动态预测过程中更加关注过去罕见的流量异常,这包括更新和衰减。如果网格l的流量事件在时间间隔t是异常的,其动态嵌入丁Xd(t,l)∈R 2D可以通过更新操作计算为【公式(8)】

这样一来,当前静态异常嵌入的信息可以融合到动态嵌入中,这可以充分捕捉到低速率流量异常事件模式。区别于只有在流量异常发生时才更新嵌入的Update[36],如果网格l的流量事件从时间tθ到时间t是正常的,其动态嵌入Xd(t,l)∈R 2D可以通过Decay操作计算为【公式(9)】衰减(Decay)操作被用来捕捉时间上的邻接流量事件之间的相互依存性和相关性。

图3. 动态嵌入的进化过程的一个例子,随着时间的变化,在不同的位置进行更新操作和衰减操作。左边是位置1、2和3从时间t1到t6的静态嵌入。右边是这些位置的动态嵌入的演化过程。

当有异常发生,进行更新操作,如红色实线箭头所示,而其他动态嵌入进行衰减操作,如绿色虚线箭头所示。这样,所提出的SNIPER方法可以更加关注异常事件,以处理不平衡的数据分布,并减少正常事件数据积累对时间上动态演化嵌入学习的负面影响。

4.3 Spatially Mutual Influence Representation Learning 空间相互影响的表征学习

受多图捕捉分区网格之间不同类型的空间相关性的启发[4], [40], 我们从网格功能、碰撞记录和交通状况的角度来构建我们的多图。为了建立这些空间相互作用的模型,我们提出了一个多图卷积网络,用注意力机制来捕捉邻居网格的权重。空间相互影响的表示学习模块如图2所示。

4.3.1 Multiple Spatial Graph Construction

为了从不同的角度建立网格之间的相似性模型,我们构建了三个考虑各种因素的空间图,包括网格功能图GF=(V,AF),表示不同网格周边POI的功能相似性;碰撞相关图GA=(V,AA),表示不同网格过去碰撞记录的相似性,如总碰撞次数、碰撞原因、伤亡人数等。交通状况图GT = (V, AT ),表示交通设施分布的相似性,包括各种公路类型和数量,以及公交车站等。在这些图中,v∈V是一个顶点,表示一个网格,A∗∈{AF ,AA,AT }是所有网格的邻接矩阵。

三个空间图的顶点表示集合了其邻居的信息,这有助于预测网格中的交通异常情况。以网格功能图GF为例,所有网格的POI分布向量都经过Max-Min归一化处理[47]。一条边的相似性权重通过计算两个顶点的向量的欧氏距离得到。根据边的权重,选择前k个最接近的邻居进行聚合,用Nk表示。因此,两个顶点(网格)vi和vj之间的邻接矩阵AF(i,j)被定义为【公式(10)】

4.3.2 Multi-GCN with Attention Mechanisms

我们分别根据三个空间图为每个网格选择邻居。在4.1和4.2节中,静态嵌入和动态嵌入是从两个不同的渠道得到的。区别于这些现有的多GCN模型[4][40],我们利用注意力机制,从静态和动态的角度学习每个图上邻居的权重,而不是直接把它们输入图对话网络来制定空间影响因素。在我们的模型中提出了一个新的空间注意机制块(SP块),如图4所述,用来捕捉邻居的权重。为了清楚地介绍空间注意机制的基本思想,我们引入了三个术语。查询、关键和价值[44]。值得注意的是,每个图都有其权重矩阵。对于每个图G∗∈{GF , GA, GT },注意力机制的计算方法如下。我们设置Xs = [Xs t-T +1, ..., Xs t-1 , Xs t ] ∈ R T ×N×2D,Xd = [Xd t-T +1, ..., Xd t-1 , Xd t ] ∈ R T ×N×2D,以表示历史静态和动态嵌入列表。

如图4所示,以Xd为例,Qd=XdWdq表示动态查询,其中Wdq∈R 2D×2D是一个权重矩阵。对于每个网格来说,存在一个由公式(10)得到的具有k+1个键值对的邻居集。Xd(k+1)∈R T×N×(k+1)×2D表示Xd查找G∗的k+1邻接嵌入。Kd = Xd(k + 1)Wdk是Qd的密钥,其中Wdk∈R 2D×2D是一个权重矩阵。Vd表示值,并且等于Kd,这意味着该值与密钥Kd的来源相同。我们可以通过计算Qd和Kd之间的点积,并应用softmax函数来获得权重。更具体地说,由邻居聚合的动态嵌入可以写成【公式(11)】

为了优化训练效率,受残差学习的启发[48],在一个SP块之后,静态和动态嵌入的融合可以写成【公式(12)】

4.3.3 Joint Representation Learning for Multi-GCN

通过联合学习,我们将各种图信息投射到一个隐含的公共空间,并加入各自的权重矩阵,而不是串联。融合可以写成【公式(13)】

一个FC-LSTM层[17]在修改时空维度的依赖性方面表现良好,结合全连接层,从T个时间步长、4D维度和N个网格的角度对特征进行聚合。更具体地说,FC-LSTM的FC层用于聚合每个网格的4D通道,将所有特征映射为非线性表示,并充分捕捉所有特征之间的相关性。FC-LSTM单元在时间步数t的隐藏状态,它聚集了T个时间步数的特征张量,被送入具有sigmoid激活函数的全连接层(F),将FC-LSTM的输出转化为预期预测,并捕捉N个网格之间的依赖关系。然后,输出可以写成【公式(14)】

4.4 loss function

4.5 Effective Model Training with Evolutionary Strategy

这里我们提出了一种批处理算法来并行化SNIPER的训练过程,这可以提高训练的效率。并行化的关键点是在训练模型时,在动态演化过程中保持时间上的依赖性。然而,所有网格的演化策略并不都是一样的,会随着时间的推移而改变。这使得我们不能简单地将时间片分割成单独的批次,并对其进行并行处理,这在现有的方法中进行[2], [3], [4]。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值