摘要
在日益城市化的今天,城市居民出行问题逐渐成为衡量一个城市现代化能力的标准;城市出行方式多元化的同时,也对各交通系统的调度运营能力提出了更高的要求:如何提高运营效率,如何运用有限的安保力量进行有效的安检部署等问题一直在阻挠着城市交通的发展。
An AI compute of cities based on Distributed-Platform and Distributed-Databases(基于分布式平台的城市AI计算系统),通过分析地铁站的历史刷卡数据,预测站点未来的客流量变化,帮助实现更合理的出行路线选择,规避交通堵塞,提前部署站点安保措施等,最终实现用大数据和人工智能等技术助力未来城市安全出行。
同时,本模型也可扩展复用至机场客流量预测、商场流量预测等多种应用场景,具有高度的可移植性及高可用性。
1.问题描述
通过分析杭州地铁站的历史刷卡数据(2019.01.01-2019.01.25),对未来某天的00时至24时以10分钟为单位各时段各站点的进站和出站人次进行预测,帮助调度人员等有关部门进行合理的地铁运营,助力城市高效、安全出行。
本课题同时为天池大数据竞赛平台的算法大赛–城市计算AI挑战赛新人赛,我们团队获得了B榜12/958的成绩。
(本次大赛因主办方原因于2019.5.24中午12:00暂时下线)
2.数据说明
2.1 训练数据
20190101至20190125共25天地铁刷卡数据记录,约1.7GB,共涉及3条线路81个地铁站约7000万条数据作为训练数据(Metro_train.zip);训练数据用于搭建地铁站点乘客流量预测模型。训练数据(Metro_train.zip)解压后可以得到25个csv文件,每天的刷卡数据均单独存在一个csv文件中,以record为前缀。如2019年1月1日的所有线路所有站点的刷卡数据记录存储在record_2019-01-01.csv文件中,以此类推。
2.2预测数据
三种预测模式:
A:提供2019年1月28日的刷卡数据(testA_record_2019-01-28.csv),需对2019年1月29日全天各地铁站以10分钟为单位的人流量进行预测。
B:提供2019年1月26日的刷卡数据(testB_record_2019-01-26.csv),需对2019年1月27日全天各地铁站以10分钟为单位的人流量进行预测。
C:提供2019年1月30日的刷卡数据(testC_record_2019-01-30.csv),需对2019年1月31日全天各地铁站以10分钟为单位的人流量进行预测。
预测数据提交格式:
3.数据预处理
训练数据包含了1.1-1.25,25个csv文件,文件内容如下图所示:由于数据量过大(7000万+条地铁刷卡数据),且数据过于格式化,不方便对整体数据进行把握,所以我们首先要做的就是:数据可视化。
3.1客流量数据可视化