论文研读|基于混合时空模型的地铁客流预测

本文是2022年IJGI上的一篇文章,作者创新地提出了一种混合神经网络模型GCTN(graph convolutional and comprehensive temporal neural network),该模型结合Transformer和LSTM捕捉全局和局部的时间依赖关系,此外使用GCN捕捉地铁网络的空间特征。结果表明该模型在客流高峰和快速变化时期具有更好的性能。

A Comprehensive Spatio-Temporal Model for Subway Passenger Flow Prediction

1. 背景

1.1 背景

随着城市人口的不断增加,城市交通也在迅速扩张,这对城市的可持续发展提出了新的挑战。与私家车相比,城市轨道交通可以减少与交通相关的能源消耗、出行成本、交通拥堵和环境污染。同时,研究表明,在城市轨道交通强度较高的城市,汽车保有量的增长相对较慢。因此,地铁、公交等公共交通设施在实现城市可持续发展中发挥着更加重要的作用。其中,由于交通流量大、运营速度快、占地面积小,地铁交通系统是消除城市交通束缚、缓解城市交通拥堵、构建城市立体交通系统的重要措施。此外,地铁排放的污染物更少,节约能源。因此,一个及时有效的地铁交通系统至关重要。

为了避免地铁资源不足导致的交通拥堵或交通瘫痪,可以利用客流预测来实现交通资源的有效分配。机器学习方法可以通过足够的历史观测获得交通数据的非线性特征和统计规律,可以处理统计方法的问题,但在节点众多的复杂网络中很难取得良好的结果。它们主要依赖于复杂的手动特征工程,这导致对海量数据建模缺乏鲁棒性,并且无法处理原始时空数据。因此,机器学习方法很难在丰富的时空数据的基础上获得最佳的预测结果。

深度学习方法可以自动建立特征工程并改进特征表达。此外,深度学习模型在捕捉非线性和复杂模式方面具有优势,这可以帮助它们获得更准确的结果。交通流预测本质上依赖于历史观测。因此,时间依赖是不可或缺的一部分。然而,一些深度学习模型只考虑了客流的时间依赖性,而忽略了空间依赖性。这样,交通预测就脱离了道路和车站等空间因素。通过整合空间相关性,可以进一步提高模型的准确性。因此,针对单一模型在客流预测中的不足,一些研究引入CNN对空间依赖性进行建模,并将其与RNN 模型及其变体模型。

由于地铁网络的非欧氏和时变特性,CNN很难描述复杂的空间拓扑关系。因此,一些深度学习模型引入了图卷积神经网络(GCN),以改进对客流中时空特征的捕获。同时,RNN模型在捕捉时间依赖性方面存在局限性。注意力模型可以捕捉全局和动态时空特征,这有助于预测。一些深度学习模型将注意力模型引入交通流预测领域。然而,一些知识差距仍然存在。统计方法很难捕捉复杂的特征。机器学习方法在很大程度上依赖于人工设计的特性。

关于深度学习方法,现有模型仍存在以下差距:

a. 在地铁客流预测中,大多数基于GCN的方法忽略了对相邻矩阵的改进。首先,他们忽视了地铁站进出口的空间影响。其次,他们忽视了全局对局部的影响。

b. 大多数方法基于单个模型来捕获时间依赖性,例如RNN模型及其变体或Transformer 模型。然而,这些模型在捕捉所有时间特征方面仍然存在局限性。

c. 交通预测通常分为两个尺度,即短期(<30分钟)和长期。目前,地铁客流预测多为短期预测。然而,长期流量预测也非常重要,可以为运营调度提供更充分的准备。

1.2 问题研究

综上所述,本文为了解决以上问题,提出了GCTN,该模型可以对全局和局部的时空依赖性进行综合建模。在探索地铁客流后,本文将客流数据分为三种模式:近期、每日以及每周。并尝试多种融合方法探索几种模式的影响。与现有的客流模型相比,本文提出的混合模型具有以下优点:

a. 通过对相邻矩阵和GCN的改进,空间结构在地铁网络中的表现更加明显。

b. 对时空依赖关系进行全面建模。设计了一个时空块结构,对网络提取的特征进行无缝建模。

c. 对Transformer模型进行了改进。在提取和融合中间特征的基础上,增加了CNN,有助于更好地分析地铁时间序列数据。

d. GCTN是准确预测长期地铁乘客流量。客流预测可以帮助地铁调度,也可以帮助市民规划路线和安排时间。

地铁客流预测问题实际是一个时空预测问题。地铁中的空间结构可以表示为图结构:

V是表示地铁站的N个节点的集合,E是地铁站之间的边,A 是基于地铁站之间的连通性和欧几里得距离的相邻矩阵。 转换具体预测问题为:

X是时间T内N个车站的历史地铁客流,G是地铁网络的图结构,W是可学习的参数。

2. 方法介绍

本文将历史地铁客流分为三种模式(近期、每日和每周)。近期模式表示最近的时间,每日模式和每周模式表示不同日期或周的目标时间的客流历史情况。不同的模式融合有助于研究周期性时间片对目标时间地铁客流的影响。预测过程如下图所示:

本文建立了一个混合神经网络模型GCTN来解决地铁客流预测问题。除了捕捉时空相关性外,该模型还考虑了不同时间步长车站之间的相关性,以加强长期客流预测。

2.1 总体架构

本文设计了一个时空块,其中包含GCN、双向长短期记忆(Bi-LSTM)网络和Transformer模型。GCN模型通过自动学习车站的特征信息和结构信息来捕捉地铁网络的空间特征。Bi-LSTM模型中输入和输出分量的路径将影响关于时间依赖性的学习。路径越长,就越难有效地学习长程依赖关系。所以使用Bi-LSTM模型来捕获局部时间特征。

基于自注意机制的Transformer模型可以对全局上下文进行建模,以捕获长程依赖关系。所以使用Transformer模型用于捕捉全局时间特征。为了对时空相关性进行全面建模,设计了时空块。它可以提取和融合时空特征。此外,可以通过堆叠时空块来增加模型的深度,这有助于对深层时空依赖关系进行建模。然后,通过两个卷积层将时空块处理的特征聚合为预测输出值。总体架构如下图所示:

2.2 Modeling Spatial Dependency

地铁客流预测中的一个关键问题是地铁网络的复杂空间依赖性。CNN很难处理非欧几里得结构的数据,不能有效地提取地铁网络中的拓扑空间特征。而GCN可以对节点特征和结构信息进行端到端的预测,也可以聚集相邻节点的信息,以获得图网络中节点的特征,这是基于可学习的权重和预定义的图,同时GCN适合于捕捉具有任意拓扑的节点和图的空间特征。因此通过GCN,可以建立地铁网络站点之间的空间关系,实现了空间特征的精确表达。下图所示为通过GCN捕获节点特征示意图:

本文对传统的邻接矩阵进行了改进。一个地铁站有很多进出口,不同的进出口可能并不相近。人们倾向于选择离自己的地点或目的地更近的进出口路线。此外,地铁站不同数量的进出口可能对地铁客流产生不同的影响。因此,进出口对车站的空间影响值得考虑。本文将地铁车站的进出口作为特征的一部分来构建相邻矩阵。换言之,单位矩阵被对角矩阵取代,对角矩阵结合了地铁相邻矩阵中的导入和导出。因此,车站本身的特性得到了增强。

首先,本文根据最大值和最小值标准化进出口数据。第二,本文完全基于标准化的进出口数量构建一个对角矩阵。本文构造了一个相邻矩阵,表示站点之间的连通性和欧几里得距离。然后,本文将相邻矩阵、对角矩阵和单位矩阵进行组合。最后,构造了相邻矩阵的自循环,通过以下公式计算得到:

= A + +

其中A表示基于连通性和欧几里得距离建立的相邻矩阵, 是单位矩阵, 是由标准化的进出口数据构成的对角矩阵。

在GCN中,相邻节点的信息与预定义的相邻矩阵进行聚合。然后,利用所学习的权重来获得节点之间的空间特征。本文从切比雪夫多项式近似中学习结构感知节点特征,该多项式近似可以对空间依赖性进行建模。历史数据 ,其中T表示输入特征的时间步长,N表示节点数量,F表示输入特征数量。其中F表示输出特征的数量,可以用以下方程表示:

其中σ是一个非线性激活函数,使用ReLu函数。k是切比雪夫多项式的阶数T,可以将其视为卷积核上感受场的大小。是可学习的权重参数。

相邻车站的客流将影响当前车站的客流。同时,全局站点对特定站点及其相邻站点的影响值得考虑。本文在切比雪夫图卷积网络中加入了点积注意机制。点积运算中使用缩放拉普拉斯算子来全局化站点之间的空间特征,这可能会增强全局站点对特定站点及其相邻站点的影响。由于地铁客流预测中存在流入量和流出量,本文通过CNN对流量特征进行了高维扩散。切比雪夫图的卷积层需要修改。修改如等式所示:

2.3 Modeling Temporal Dependency

影响时间依赖性的重要因素包括时间片的接近性、趋势和周期性。本文尝试了基于近期、每日和每周模式的各种组合方法,通过使用时间模式和空间特征的组合来捕捉时间特征。将特征分别输入到LSTM和Transformer中,目标是捕获局部和全局时间功能。此外,本文将这两种时间特征融合在一起,以获得最终的综合时间特征。

本文使用Bi-LSTM网络来捕捉前后时间步长的客流对当前时间步长的影响。它可以增强局部时间特征,使局部时间特征更加显著。在Transformer中,基于输入特征加权平均运算的自注意机制可以灵活自适应地关注不同的区域,捕捉更多的特征。本文在多头注意层前面增加了1个卷积层来提取中间特征。然后,本文通过在多头注意力层之后添加卷积来进一步重用和聚合全局时间特征。具体结构图如下图所示:

2.4 Temporal Feature Fusion and Prediction Layer

Bi-LSTM捕获的局部时间特征和Transformer捕获的全局时间特征通过门机制融合,如下等式所示:

是聚集局部和全局时间特征的门,激活函数,将输入数据转换为格式,为Bi-LSTM输出, 为Transformer输出。 在获得第一个时空块的综合时间特征后,本文将综合时间特征与获得的空间特征融合。此外,将融合的特征输入到下一个时空块中。在获得最终的时空特征后,通过两个CNN层获得最终的预测值。使用CNN将扩散的高维特征融合并压平为所需的特征维度。高维特征被扁平化为流入和流出特征。同时,数据被平坦化为预测目标的时间步长,如等式所示:

Y和X分别是GCTN的输出和输入。

3. 实验和结果

本文使用的地铁客流数据来自中国上海地铁系统的智能卡数据。研究区域和相应的地铁线路如下图所示:

数据跨度为2015年4月7日至4月30日。在此期间,每天约有900万张卡被记录在案,覆盖289个地铁站。根据人们的公共活动习惯,本文选取5:30-23:00为研究时段。此外,以10分钟、20分钟和30分钟作为客流统计的时间间隔。以10分钟为例,23天的数据可以分为2415个时间片。数据按照6:2:2的比例分为训练集、验证集和测试集。使用平均绝对误差(MAE)、均方根误差(RMSE)和加权平均值绝对百分比误差(WMAPE),用于定量分析和评估不同模型的预测性能。数据形态如下所示:

本文通过实验发现具有两个时空块的模型提高了RMSE的性能。然而,MAE的性能有所下降。这意味着预测性能在低客流量时期下降,但捕捉峰值的能力进一步提高。具体如下图所示:

同时为了探索不同时间组合模式下的地铁客流预测,构建了11个不同的时间组合模式数据集并进行了测试。其中,H表示临近模式,D表示每日模式,W表示每周模式。RMSE的结果如下图所示:

可以发现,当只有近期模式的输入数据时,预测性能最差。尝试了四种只涉及近期模式的输入数据。随着近期模式的增加,预测性能得到了提高。但是随着数据集中接近模式数量的增加,预测性能不会总是变得更好。当近期模式与每日模式或每周模式相结合时,预测性能显著提高。当这三种模式组合在一起时,预测性能最好。

本文将所提出的模型与基于相同输入模式组合的九种基线模型进行对比。具体结果如下图所示:

结论

针对地铁客流预测问题,本文认为现有的工作忽略了地铁车站进出口的空间影响以及全局车站对特定车站的影响。此外,许多方法都基于单个RNN模型或其变体,或Transformer模型,这在捕捉时间特征方面具有局限性。本文提出了一种混合神经网络GCTN来解决这些问题。

本文使用上海地铁乘客数据进行测试。结果表明,MAE-RMSE和WMAPE在多步预测中取得了良好的性能。GCTN在捕捉客流快速变化的高峰和时段方面具有更好的预测性能,更有利于模型的实际应用。本文比较了不同时间组合模式的效果,表明近期、每日和每周模式的组合可以提高预测性能。

同时,本文验证了GCTN中提出的改进,本文认为CNN和Transformer的结合是有帮助的。然而,仍然存在一些局限性。首先,验证数据集的周期不够长,无法研究季节等长时间因素的影响。其次,没有考虑天气等外部因素的影响。最后,没有研究动态空间特征,这可能会改善空间依赖性。未来,将进一步探索外部特征的影响,并研究GCTN在较长数据集中的应用。本文还打算研究动态时空特征在深度学习模型中的影响,以及不同类型的注意力机制在全局时间特征中的差异。

更多内容,敬请关注同名微信公众号:时空大数据兴趣小组。

  • 8
    点赞
  • 14
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值