流量预测是智能交通分流与出行优化中不可或缺的一环。本文记录的相关论文包括以下几个问题的研究:
Citywide Crowd Flows Prediction:预测城市各区域人流量或每个地铁站的客运量,为拥挤预警和交通管理提供帮助
Origin-Destination(OD) Prediction:预测出发地到目的地的交通情况(流量、路线规划等)
Crowd Flow Distribution Prediction:预测人群的流动趋势
Deep Spatio-Temporal Residual Networks for Citywide Crowd Flows Prediction(AAAI2017)
该论文提出了ST-ResNet模型,通过学习包含时间、空间两个维度的数据,预测城市每个区域人群的流入、流出
使用ResNet建模人流量在时间上的closeness,period,trend属性,对每个属性采用一系列的conv学习其空间属性,并对这三个ResNet赋予不同权重进行融合,最后将外部因素的特征也并入,一同预测流量
作者提出根据经纬度将城市划分为一个
I
∗
J
I*J
I∗J的grid map,每个grid代表一个区域
每个区域坐标为(i,j),其人群流入量定义为,在时间点t,从其他不属于该区域范围内的点到达属于该区域范围内的点的人数,流出量反之
数据集
人群的流入流出量可以用行人流量(手机信号)、车流量、公共交通乘客数(GPS信息)等衡量。该论文采用的两个数据集分别用北京出租车和纽约单车的GPS信号表示人流量。每个数据集包括轨迹和天气数据,具体内容如下:
损失函数
流量预测值与真实值之间的MSE
Attentive Crowd Flow Machine(ACM2018)
如何自适应地融合各种各样影响人流量的因素是流量预测的难点。人群流量数据在时间序列上可以有很大的变化,捕捉这种动态变化是非常重要的。该论文提出ACFM模块,用attention机制学习随时间变化数据的动态特征,推测流量的变化
ACFM
ACFM模块包括两个convLSTM+预测空间权重的conv
1st LSTM:
从输入的人流量特征embedding中学习时间依赖,输出与当前人流量特征拼接的隐藏状态(对之前的人流量序列的动态时间行为进行建模),输入到一个conv中计算attention map,表示特征图中每个空间位置的权重
2nd LSTM:
将重新加权的人流量特征图作为input,学习时空表示,为进一步人流量预测做准备
框架
框架包括三个部分:Sequential Representation Learning,Periodic Representation Learning和融合模块。前两部分用ACFM对不同的时间维度上的情境特征进行建模。融合模块从前两部分的特征和外部特征的拼接中自动学习到权重,合并之前学到的特征
Sequential Representation Learning
城市中的人流量被各种各样的内部和外部因素影响,比如实时交通状况和天气情况。这个模块将连续的人流量特征及其外部特征作为连续时间特征,输入到ACFM中获取短期的人流量变化趋势
input:
n是连续的时间间隔的长度,
F
j
i
F^{i}_{j}
Fji表示第j天的第i个时间间隔的人流量特征和外部特征的embedding
ACFM逐次获取其中的每个元素作为输入,学会选择性的记住(attention)这个特定的上下文中temporally-varying的数据。再将ACFM的输出经过一个conv,得到细粒度的时空序列特征的表示Sf
Periodic Representation Learning
交通流量的变化存在周期性,对交通流量的变化有重要影响
input:
m是周期的长度,
F
j
i
F^{i}_{j}
Fji表示第j个周期的第i个时间间隔的人流量特征和外部特征的embedding
与上一个部分相似,最后输出描述了周期性变化的特征Pf
人流量特征的embedding通过一个类似ResNet的网络得到,外部特征的embedding通过两个全连接层得到
Temporally-varying Fusion Module
将Sf,Pf,Ef(所有相关时间间隔上的外部特征之和)拼接起来输入两个全连接层(第二个全连接层仅有一个神经元)和sigmoid,输出Sf的权重r,则Pf的权重为1-r。将这两个特征的加权值经过一个线性层,将特征维度降到二维(流入、流出)
最后经过一个tanh,保证输出在-1到1的范围(正负表示流入流出)
Contextualized Spatial-Temporal Network for Taxi Origin-Destination Demand Prediction(AAAI2019)
出租车需求预测可以预估未来的出租车需求,并帮助提前将出租车分配到各个区域,解决供需不匹配的问题。以往的出租车需求预测方法大多只考虑了客源地的出租车需求预测,而忽略了目的地乘客的具体情况的影响
该论文旨在预测未来时间间隔内所有区域对之间的出租车需求,预测出租车起点需求和乘客的目的地。难点在于如何有效地获取不同的上下文信息来学习需求的特征。为解决这个问题,论文提出了CSTN
在该工作中,出租车需求被定义为在每个时间间隔内从起点到目的地的叫车请求总数。用OD矩阵Xt表示时间间隔t内的出租车需求。Xt尺寸为NHW,H、W是城市地图划分出的grid map的大小,N是城市中区域的数量,也就是H*W。 X t ( d , i o , j o ) X_{t}(d, i_{o},j_{o}) Xt(d,io,jo)是从出发点 R ( i o , j o ) R(i_{o},j_{o}) R(io,jo)到目的地 R ( i d , j d ) R(i_{d},j_{d}) R(id,jd)的需求数量,d用来指代目的地,d=W * i d i_{d} id+ j d j_{d} jd。Xt的第d个feature map就是从所有区域到 R ( i d , j d ) R(i_{d},j_{d}) R(id,jd)的需求数量,将所有feature map加起来就是origin demand Ot。该论文的目标是根据前t-1个时间间隔的出租车需求数据X和天气数据M预测Xt
CSTN
CSTN,包括三个部分:local spatial context (LSC), temporal evolution context (TEC) ,global correlation context (GCC)
LSC
指在空间上相邻的一些区域通常有相似的需求模式
即使两个区域在空间上相距遥远,如果它们具有相似的功能(例如,它们都是居民区),需求模式可能仍然有一些相关性
首先从构建好的OD矩阵通过变换得到DO矩阵。OD矩阵的每个feature map表示从所有区域出发前往当前目的地的需求,DO矩阵的每个feature map表示当前位置前往所有目的地的需求。变换过程如下图所示
然后使用两个CNN分别以OD矩阵和OD矩阵为输入,学习客源地和目的地的出租车需求的局部空间依赖,再将学到的两个特征融合
TEC
出租车需求是一个随时间变化的过程,与各种因素有关,如出租车目前的状态和不断变化的气象学,这被表述为temporal evolution context
作者将天气数据输入MLP(三个全连接层)并将得到的特征复制H*W次,将结果记为
F
i
m
F_{i}^{m}
Fim,与LSC模块得到的结果拼接输入conv
接下来依次输入不同时间间隔的特征,使用LSTM通过对出租车需求的局部空间特征和天气情况的学习,分析出出租车需求随时间的变化,得到隐藏状态
h
n
h_{n}
hn,经过一个conv生成局部时空特征
GCC
文中将两个相距遥远的地区之间的关系称为global correlation context。两个区域的性质若一致,即使距离较远,也会有相似的出租车需求
利用GCC模块,将所有区域特征的加权和作为全局相关特征,其中权值为对应区域对之间的相似度,从而对所有区域之间的相关性进行建模,这样,每个区域包含了所有区域的信息,并且与之相似度高的区域相关性更强。最后,整合TEC模块产生的特征和GCC模块产生的特征来预测未来的出租车的OD需求
将
F
l
t
F^{lt}
Flt经过一个conv并reshape为N列。Fs的每一列表示一个区域的特征
将Fs与其转置矩阵相乘,经过softmax得到相似度矩阵,每一项代表两个区域之间的相似度(权重)
将输入的特征
F
l
t
F^{lt}
Flt与S相乘,得到的Fg编码了global correlation context,但其缺乏结构局部性,会导致性能下降,因此将其与
F
l
t
F^{lt}
Flt拼接,得到合并了三种context的混合信息的
F
l
t
g
F^{ltg}
Fltg
最后,经过一个线性回归(conv)和将数据归一化到[-1,1]的tanh得到需求预测值
数据集NYC-TOD
该论文为这个任务创建了第一个数据集NYC-TOD,由两类数据构成,包括2014年纽约市曼哈顿地区出租车发车目的地需求数据和气象数据
损失函数
Mean Average Percentage Error (MAPE)
Rooted Mean Square Error (RMSE)
Online Spatio-temporal Crowd Flow Distribution Prediction for Complex Metro System
《Network-wide crowd flow prediction of sydney trains via customized online non-negative matrix factorization》的扩展。很多模型只是预测了地铁站的人流量,但现实中,得到潜在的人流量分布(CFD)也是一大需求。该论文提出了三种用于地铁网络CFD预测的在线潜在空间学习模型,可同时得到CFD、流入流出量
第一个模型OLS-AO (online latent space model with average optimization)可以学习到人流量的平稳变化趋势,但是无法学习到突然变化,所以提出第二个模型OLS-MR (online latent space model with most recent trend)。这两个模型各有千秋,因此用OLS-DT,一个双轨模型,综合OLS-AO和 OLS-MR的优点
crowd flow distribution(CFD) prediction
得到潜在的人流量分布,即预测人群的流动情况,分析一个站点的人流量将如何影响其他站点。比如当一个不寻常的人群流入出现在某站时,交通拥塞警告将传送至所有可能受影响的车站
OLS-AO
online latent space (OLS) strategy
首先通过矩阵分解的方法将整个网络的数据编码到两个隐空间,然后融合时间信息来捕捉隐属性,检测随时间变化呈现出的动态模式
为了获得隐属性,采用非负矩阵分解(NMF)策略将每个时间戳上的网络编码到两个隐空间中,分别为所有入口地铁站和出口地铁站的属性
将每个时间戳的CFD值分解为两组隐属性的乘积:
基于此提出OLS-AO (online latent space with average optimization)模型,学习隐空间W, H和转换矩阵A,B,
W
t
=
W
t
−
1
A
,
H
t
=
H
t
−
1
B
W_{t} = W_{t-1}A, H_{t} = H_{t-1}B
Wt=Wt−1A,Ht=Ht−1B,并根据转换的模式进行下一次预测预测下一个时间戳的W, H
乘客一个站点进入到从另一个站点离开,有一段时间的差距,导致了在线系统无法收集完整的数据,因为有许多乘客仍在旅途中
用
Z
q
,
t
Z_{q,t}
Zq,t表示在第t个时间戳出发的第q个OD对的所有乘客到达目的地所需时间,假设其服从正态分布,平均值、方差分别为
μ
q
,
t
\mu_{q,t}
μq,t,
σ
q
,
t
\sigma_{q,t}
σq,t,那么如果到当前时间T为止的出行时间大于
μ
+
2
σ
\mu+2\sigma
μ+2σ,则能以98%的置信度认为乘客们都到达了目的地,将indication矩阵P的对应位置记为1,否则记为0
OLS-MR
average optimization strategy提取出能够避免异常噪声的长期趋势,但对突然的变化不敏感。作者提出通过学习最近时间的趋势来修正这一点
OLS-DT
OLS-AO和OLS-MR各有所长,前者适应稳定流动,后者适应突然的变化。因此,作者提出了一种双轨策略(dual-track strategy),将两种模型相结合,解决了多种情况下的预测任务
数据集
Sydney Trains
Physical-Virtual Collaboration Graph Network for Station-Level Metro Ridership Prediction(2020)
为了提高地铁系统的服务效率,根本问题是如何准确预测每个车站的客流量。传统的方法要么忽略地铁系统拓扑信息,要么直接从物理拓扑中学习,不能充分挖掘地铁客运量的演化规律。为解决上述问题,作者将地铁系统建模为具有各种拓扑结构的图,提出PVCGN模块,从图中学习客运量的特征
基于所研究的地铁系统的真实拓扑结构,直接建立物理图;在客流相似度(similarity)和相关度(correlation)的指导下,利用虚拟拓扑结构建立相似度图和相关度图。这些图输入图卷积GRU,学习时空特征,然后一个全连接GRU学习全局变化特征,最后用seq2seq的方式预测地铁站点流量
假设i代表站点,t代表第t个时间间隔,该论文的目标是根据站点客运量的历史数据序列
X
i
X^{i}
Xi,预测未来的站点客运量序列:
三种图的构建
三个图共享相同的节点,但具有不同的边和边权值
Physical Graph
基于所研究的地铁系统的物理拓扑构建
首先建立一个邻接矩阵P,如果站点i和j之间有直接连接则P(i,j)=1,否则为0。对矩阵的每一行进行线性归一化得到的结果作为图上每条边的权重
Similarity Graph
如果所处的地区具有相同的功能,那么不同地区的两个地铁站可能有相似的客流量变化特征。即使在真实地铁系统中它们之间无直接联系,在构建的图中也可以在二者之间加一条边以学习流量的变化
首先建立一个相似性评分矩阵S,通过动态时间规整(Dynamic Time Warping,DTW,测量两个时间序列之间距离)计算每个站点之间的客流相似性
基于这个矩阵构建图的边的方法可以是根据预定义的相似度阈值,或者选择相似度得分较高的top-k站点对。边的权重计算如公式。i和k之间有一条边时L(Es,i,k) = 1,否则为0
Correlation Graph
两个地铁站互相之间的人员流动量很大,则可以认为两个站点之间关联性很强。在这种情况下,也可以将这些站点连接起来,以了解站点之间的客流量交互
用客流量的OD分布构建图。建立一个关联度矩阵C,D(i,j)是整个训练集中从j站到i站的乘客总数
边的权重计算方式如下
CRGM
Graph Convolution GRU
假设输入为I,定义图卷积
I
t
∗
θ
I_{t}*\theta
It∗θ如下图。
θ
l
\theta_{l}
θl是自循环参数,
N
N
N表示三种图中与节点i相邻的节点集。通过这种方式,一个节点可以动态地从一些高度相关的邻居节点接收信息
图卷积作用在空间维度上,将其嵌入到GRU中可以使其同时学习到时间和空间特征
总体表示为
FC-GRU
用两个FC层和一个带有FC层的普通GRU学习所有站点的全局变化特征
Collaborative Gated Recurrent Module (CGRM)
通过一个FC层融合GC-GRU和FC-GRU的输出,生成综合特征。公式中的操作为拼接
PVCGN
PVCGN由编码器和解码器组成,两者都包含两个CGRM。编码器将历史客运量序列作为输入,解码器用全连接层预测未来的载客量序列
数据集
Shanghai Metro;Hangzhou Metro
损失函数
MAPE:Mean Absolute Percentage Error