kdd数据集_交通轨迹数据、工具、论文汇总-持续更新-欢迎收藏

最新推荐文章于 2025-03-14 19:56:55 发布

weixin_39853523

最新推荐文章于 2025-03-14 19:56:55 发布

阅读量2.3k

点赞数 1

文章标签： kdd数据集

属于时空预测方向，在人工智能相关会议上有不少工作值得借鉴。
原始数据集总结
一、TaxiBJ，北京出租车数据集，郑宇，"BJ15_M32x32_T30_InOut.h5"，原始数据shape=(5596,2,32,32)，"2"代表出In/Out两种流量。

https://github.com/lucktroy/DeepST/tree/master/data/TaxiBJgithub.com

备注：数据应用在ST-ResNet（AAAI17，郑宇的经典，该领域的里程碑）中。

二、METR-LA，洛杉矶高速路数据集，"metr-la.h5"，原始数据shape=(12,6850,207)——间隔5分钟，预测未来1小时(12,207,2)->(12,207,1)
备注：数据应用在DCRNN文章中。可以在官网下载，可以在文章github上面下载。

https://www.metro.net/www.metro.net

三、NYC-Taxi，纽约出租车数据集，"volume.train.npz"，原始数据shape=(1920,10,20,2)，"10,20"代表网格化地图形状，同郑宇的"32,32"
备注：数据应用在STDN文章中。

NYC Taxi & Limousine Commission - For-Hire Vehicle (FHV) trip records - Azure 开放数据集目录azure.microsoft.com

四、PeMS04/08，加利福尼亚高速数据，"data.npz"，原始数据shape=(10195,307,3)——间隔5分钟预测1小时(307,3,36)->(307,3,12)
备注：数据应用在ASTGCN文章中，"3"代表交通流量3种特征(flow，speed，occupancy)。

https://github.com/Davidham3/ASTGCNgithub.com

五、其他数据集
1）2009.5月——北京出租车数据集(一个月)；
备注：郑宇的文章中含有。
2）2014.8月——成都出租车数据集(一个月)；
备注：比赛数据。

3 geolife项目，2007，分享个人轨迹到地图上，识别用户交通模式，基于历史轨迹推断用户相似性，基于协同过滤的位置推荐，利用用户模式挖掘位置间相关性，潜在旅行伙伴推荐，基于位置和偏好感知的推荐系统。

GeoLife: Building Social Networks Using Human Location History - Microsoft Researchwww.microsoft.com

4、T-Drive项目，2010，结合出租车司机驾驶习惯 & 时间、天气等外部信息，给出驾驶路线

T-Drive: Driving Directions Based on Taxi Trajectories - Microsoft Researchwww.microsoft.com

5、T-Finder项目，，2012，上下客双向推荐，两个位置

T-Finder: A Recommender System for Finding Passengers and Vacant Taxis - Microsoft Researchwww.microsoft.com

学术论文梳理

TKDE期刊 (IEEE Transactions on Knowledge and Data Engineering)
2019，MDL 郑宇；交通流量预测。给定历史观测值和外部特征，提出一个共同预测模型，作者搭建了基于参数硬共享的双任务深度学习模型，学习节点流量(Node-level)和边流量(Edge-level)，完成了流量进出和流量迁移两个任务的预测。所提出的MDL最终在北京和纽约的出租车数据集上超过了ST-ResNet在内的11个baseline。

NIPS会议
2017，PredRNN 清华，利用自定义的 “时空LSTM” 单元，基于历史数据帧预测未来图片，数据集采用Moving Mnist（Mnist视频流也是高端...）。
CVPR会议
2017，Structural-RNN，将时空图转换成RNN混合体的一种通用的可扩展的方法。作者是用来做行为识别的。感觉是非常视觉的paper，膜拜一下就好...

AAAI会议
2017，ST-Net 郑宇；目前已经基本复现了微软亚研院郑宇在人群流量预测工作中使用的ST-ResNet残差网络。
2018，DMVST 宾夕法尼亚（姚骅修，滴滴实习生等）；综合考虑时间、空间、语义三方面信息，预测出租车需求，其中数据来自2017年滴滴出行在广州的近两个月数据。作者提供了开源代码，li zhenhui老师后续在AAAI2019又发表了一篇"Revisting Spatial-Temporal similar"，提出STDN网络（姚骅修，数据来自NYC纽约），工作也是相当多的。

huaxiuyao/DMVST-Netgithub.com

tangxianfeng/STDNgithub.com

2019，ASTGCN 北交（郭晟楠，林友芳，宋超等）：，采用加利福尼亚的两段高速数据，目前为预测1小时后的交通流量，使用mxnet搭建神经网络（添加了注意力机制的STGCN）。使用三个组件对时间序列上三个不同长短的周期模式进行建模。使用的mxnet架构，不熟悉的伙伴小心了。
2019，STMGCN（李亚光，滴滴）：空间上引入Multi-Graph多图，针对地图区域间非欧关系，本文提出更加详细的三种关系图（距离临近、功能相似、道路相通），对多图进行图卷积并聚合。时间上Contextual Gated RNN，实际为SENet思想。针对训练样本序列，利用SENet的Squeeze和Excitation操作，对每个时刻图进行全局池化，和图自身卷积池化的结果相加，再利用Excitation达到不同通道权重化的效果。

2020 还有两片最新的论文，大家感兴趣也可以读一读。

皇德华叫兽：[AAAI2020] 图注意力机制网路用于交通预测zhuanlan.zhihu.com

皇德华叫兽：[AAAI2020]multi-Range attentive GCN for 交通预测zhuanlan.zhihu.com

ICLR会议
2018，DCRNN 南加大（李亚光，虞琦等人）：本文借鉴ICLR2017的一篇（RNN对图结构数据的推广）的思想，将该模型用于交通预测。首先构建图，这个图可以加权也可以不加权，可以有向也可以无向，本文使用的是加权双向有向图。交通预测挑战在于：空间路网复杂，时间依赖非线性。本文干的事概括来讲是：给定历史车速与路网数据，预测未来的车速。使用基于图bidirectional random walks捕获空间依赖，使用基于序列的带预定采样的编解码机制捕获时间依赖。上来创新点扣了个大帽子：“交通空间结构非欧，有向”。本文在洛杉矶构建了带权有向图，图的顶点是sensors（207个），边是权重，通过路网上 sensor 之间的距离得到。时间间隔5分钟，预测未来1小时的速度，所以输入数据中一个样本是（12,207,2），输出为（12,207,1）。这里有文章解读：

皇德华叫兽：[ICLR2018]深度学习用于交通预测的经典文章-DCRNNzhuanlan.zhihu.com

2018，GAT 剑桥大学（还有Bengio大神），提出的图注意力。IJCAI会议
2018 STGCN，提出了时空图卷积的网络架构，作者通过构建时空卷积块预测交通图中不同路网节点的速度v，且利用的是加州和北京两个数据集进行验证。使用局部图卷积（基于拉普拉斯图的一阶近似），无向图。
2018 GeoMan，还是郑宇，张均波那些人的，预测传感器值的回归问题，使用水质数据和空气质量两个数据集进行验证。
Sensors
2017 Deep CNN 北航+北交，用CNN模拟空间相关性，但空间结构在欧式空间 (例如：2D图像)，理解为普通网格地图策略。
IJCNN会议
2018 Deep Transport 百度，通过明确收集各道路上下游的邻域道路, 并分别对这些邻域进行传统卷积, 对空间依赖关系进行建模。

还有一些其他的数据网址，有需求可以逛一逛：

Stanford Large Network Dataset Collectionsnap.stanford.edu Bike Sharing in Washington D.C. Dataset | Kagglewww.kaggle.com Taxi & Limousine Commissionwww.nyc.gov RESOURCE – Data Mining Labdm.uestc.edu.cn LSTW: Large-Scale Traffic and Weather Events Dataset - Sobhan Moosavismoosavi.org

两个开源的地图及出行开发工具：

graphhopper/map-matchinggithub.com