【数据挖掘】【总结】项目总结之KDD2017

本文是关于KDD Cup 2017数据挖掘项目的总结,主要涉及流量预测问题。作者分析了数据,进行了数据预处理,包括异常检测和异常数据删除。探讨了特征工程,如短期流量特征提取,以及模型选择与调参,如GBRT、RF和线性回归等。此外,文章还提到了交叉验证和模型集成如stacking的重要性,并规划了后续工作,如时间序列算法的应用和特征筛选。
摘要由CSDN通过智能技术生成

KDD CUP 2017从四月开始做,到今天(0508)已经做了一段时间,成绩目前虽然较以前有了不少提升,但距离顶尖还有不少距离。

最近把想到的好实现的东西都实现了,效果也都不错,但是貌似遇到了瓶颈,现在捋一捋思路,看看还有什么地方可以继续提高。

由于目前只做了volume的部分,所以下文中只涉及vol。

Data Analysize

接触到数据,首先做了一些简单的分析和可视化。然后定了基本思路。

  1. 定义问题

    • 高速公路收费口流量预测
    • 已知的大部分数据都是高速收费口外(合流区,分流区)的数据

    输入:

    • 目标区域的道路网络拓扑
    • 车辆轨迹
    • 车型
    • 收费口历史流量
    • 天气
    • 节假日

    输出:

    • 预测路口A-收费口1之间的通行时间
    • 收费口流量
  2. 可视化

    • plot(y)之后发现时间区间包含了十一假期,流量会有异常,而预测区间内不包含法定节假日,推测该部分数据对预测帮助不大,所以在后来当作异常数据给处理掉了。
    • 流量的周期变化十分明显,周期为一天,常识上也认为每周会有对应的变化。
    • 长期趋势不明显。
  3. 基本思路

    • 通行时间和收费口流量应该是强相关的(不一定是同一时段)
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值