贴一下汇总贴:论文阅读记录
论文链接:《Revisiting Spatial-Temporal Similarity:A Deep Learning Framework for Traffic Prediction》
一、摘要
由于大规模交通数据的可获得性及其在现实世界中的重要性,交通预测在人工智能研究领域受到越来越多的关注。例如,准确的出租车需求预测可以帮助出租车公司预分配出租车。交通预测的关键挑战在于如何对复杂的空间依赖性和时间动态进行建模。尽管在建模中考虑了这两个因素,但已有的研究对空间依赖和时间动态做出了强有力的假设,即空间依赖在时间上是平稳的,而时间动态是严格周期性的。然而,在实践中,空间的依赖可能是动态的(即随时间而变化),时间的动态可能在一个周期到另一个周期之间有一些扰动。本文给出了两个重要的观察结果:(1)位置间的空间依赖是动态的;(2)时间依赖遵循日依赖和周依赖的模式,而不是严格的周期性的动态变化。为了解决这两个问题,我们提出了一种新的时空动态网络(STDN),其中引入了流量门控机制来学习位置之间的动态相似性,并设计了周期性转移的注意机制来处理长期的周期性时间转移。据我们所知,这是第一个在统一框架下解决这两个问题的工作。我们在真实交通数据集上的实验结果验证了所提方法的有效性。
文章主要内容
提出了一种新的时空动态网络(STDN),其中引入了一种门控机制来学习位置之间的动态相似性,并设计了一种周期性注意力转移机制来处理长期的周期性时间转移。
二、结论
提出了一种新的用于流量预测的时空动态网络(STDN)。该方法通过流量门控机制来跟踪区域间的动态空间相似性,通过周期性转移注意机制来跟踪时间周期相似性。对两个大规模数据集的评价表明,所提出的模型优于目前最先进的方法。
可能的方向:
- 在其他时空预测问题上研究所提出的模型;
- 解释这个对决策者来说很重要的模型。
三、相关背景
在基于深度学习的交通预测中,虽然考虑了时空依赖性,但现有的方法存在两大局限性。
- 首先,地点之间的空间依赖仅仅依赖于历史交通流的相似性,模型学习的是静态空间依赖关系。然而,位置之间的依赖关系可能会随着时间而改变,例如,早晨,住宅区和商业中心之间的依赖性很强;而在深夜,这两个地方的关系可能很弱。然而,既有研究并没有考虑到这种动态依赖关系。
- 其次,许多现有的研究忽略了长期周期性依赖的转变。交通数据表现出较强的日、周两种周期性模式。然而,交通数据并不是严格的周期性的。例如,工作日的高峰时间通常发生在下午晚些时候,但不同工作日可以从下午4:30到6:00之间变化。既有研究虽然考虑了周期性,但没有考虑周期性的时间转移。
本文提出的STDN是基于时空神经网络,分别通过局部CNN和LSTM处理时空信息。提出了一种基于门控的局部CNN,利用交通流信息对不同位置之间的动态相似性进行建模,从而处理空间依赖关系。提出了一种周期性注意机转移制来学习长期周期依赖关系,通过注意力机制捕捉交通序列的长期周期性信息和周期性时间转移信息。此外,使用LSTM来处理时间依赖关系。模型使用的数据集是纽约的出租车和共享单车数据集。
四、STDN时空动态网络
该网络分为三部分:
- (1) Local Spatial-Temporal Network, 局部时空网络;
- (2) Spatial Dynamic Similarity: Flow Gating Mechanism, 门控机制;
- (3) Temporal Dynamic Similarity: Periodically Shifted Attention Mechanism,周期性注意力转移机制。
(一)局部时空网络
使用CNN处理局部空间依赖,对于每个时间间隔 t t t,我们将目标区域 i i i及其周围的邻域作为一个具有两个通道的 S × S S×S S×S图像, Y i , t ∈ R S × S × 2 Y_{i,t}\in\R^{S×S×2} Yi,t∈RS×S×2。一个通道包含客流产生量信息,另一个通道包含客流吸引量信息,目标区域在图像的中心。卷积公式: Y i , t ( k ) = R e L U ( W ( k ) ∗ Y i , t ( k − 1 ) + b ( k ) ) ( 1 ) Y_{i,t}^{(k)}=ReLU(W^{(k)}*Y_{i,t}^{(k-1)}+b^{(k)})\;\;\;\;\;\;(1) Yi,t(k)=ReLU(W(k)∗Yi,t(k−1)+b(k))(1)其中 k k k代表层数,卷积层后接flatten层和全连接层输出空间依赖关系。
使用原始的LSTM处理时间依赖关系。 h i , t = L S T M ( [ y i , t ; e i , t ] , h i , t − 1 ) ( 2 ) h_{i,t}=LSTM([y_{i,t};e_{i,t}],h_{i,t-1})\;\;\;\;\;\;(2) hi,t=LSTM([yi,t;ei,t],h