©PaperWeekly 原创 · 作者 | 寄家豪
单位 | 北京航空航天大学
研究方向 | 时空数据挖掘
论文标题:
Spatio-Temporal Self-Supervised Learning for Traffic Flow Prediction
论文链接:
https://doi.org/10.48550/arXiv.2212.04475
代码链接:
https://github.com/Echo-Ji/ST-SSL
研究背景
时空预测广泛存在于我们生活的方方面面,例如交通预测、细粒度疫情预测、空气质量预测等,由于待预测的数据同时存在时间属性和空间属性,因此这类问题被称为时空预测。
作为时空预测的典型案例,交通预测旨在研究如何利用历史交通状况、城市路网等数据,对未来交通状况进行预测。准确且稳健的交通预测有助于提升城市出行效率,因此它是智能交通系统的核心技术之一。
本文介绍
交通预测通常会面临数据质量低的问题,这些低质量数据主要指城市郊区的交通数据比较稀疏。原因在于郊区人口稀少、交通活动强度低。而这些数据稀疏的地方通常不被预测模型所关注,因此预测误差较大,这就会导致模型在这些区域的泛化性不足。
例如,下图展示了不同模型在北京出租车数据集上的相对预测误差,像素点越明亮表示相对误差越大。可以发现,现有模型(ST-ResNet、AGCRN)在数据低质的城郊区域(图像边缘)预测误差较大。相比之下,我们提出的面向低质量数据的时空预测模型 ST-SSL,在这些区域则表现出了较强的泛化能力。
现有模型出现这种问题的本质原因在于:不同区域的数据分布差别很大,即空间异质性。如下图(a)所示,这里有两个空间相邻的区域,但他们的数据分布差异很大,如图(b)。如果在建模的时候对两种数据分布不做区别,那就会导致模型把更多的注意力放在数据充沛的区域 B,而对数据稀疏的区域 A 关注度不足,难以捕捉这类地区的时空模式,导致模型在这类地区的泛化能力变差。