序
KDD CUP 2017从四月开始做,到今天(0508)已经做了一段时间,成绩目前虽然较以前有了不少提升,但距离顶尖还有不少距离。
最近把想到的好实现的东西都实现了,效果也都不错,但是貌似遇到了瓶颈,现在捋一捋思路,看看还有什么地方可以继续提高。
由于目前只做了volume的部分,所以下文中只涉及vol。
Data Analysize
接触到数据,首先做了一些简单的分析和可视化。然后定了基本思路。
定义问题
- 高速公路收费口流量预测
- 已知的大部分数据都是高速收费口外(合流区,分流区)的数据
输入:
- 目标区域的道路网络拓扑
- 车辆轨迹
- 车型
- 收费口历史流量
- 天气
- 节假日
输出:
- 预测路口A-收费口1之间的通行时间
- 收费口流量
可视化
- plot(y)之后发现时间区间包含了十一假期,流量会有异常,而预测区间内不包含法定节假日,推测该部分数据对预测帮助不大,所以在后来当作异常数据给处理掉了。
- 流量的周期变化十分明显,周期为一天,常识上也认为每周会有对应的变化。
- 长期趋势不明显。
基本思路
- 通行时间和收费口流量应该是强相关的(不一定是同一时段)