对于主干路的拥堵态势预测研究

        这个程序是我在研一的时候,当时和世纪高通公司有合作,他们给我提供数据,我来做的一个课题。

        我们的目标是根据已有的交通数据来建立一个拥堵情况预测的模型。整个过程大概可以分为如下步骤:

1、解读原始数据

2、数据的预处理

3、特征工程

4、建模评估

5、测试模型

解读原始数据:

因为之前对于这方面还没有了解,所以面对这些数据是一头雾水的。

在原始数据中,给出了路段的ID,路段的名称,时间段,道路类型,车间距离,车速,密度,流量,与之相联通的道路的(ID,名字,车速,流量,密度等属性)以及作为标签的拥堵程度指数。在了解这些代表了什么意思,以及把相关的单位都统一之后,便开始进行数据的预处理。

数据的预处理:

原始数据是一段一段的按照时段给出来的,所以先要concat放在一起处理。然后计算一下拥堵指数大体的中位数,标准差,平均值,可以得到标签大致的分布情况。另一方面,就是看一下缺失值,一般都是用相近数据的平均值来填充。针对于异常值似乎没有什么太好的办法。

 

特征工程:

原始的特征是:车速、车间距、密度、流量、时间段、道路等级,以及相联通路段的情况,而我们根据日期还补充了当时的天气情况。接下来就是需要对特征进行处理,从而让计算机可以理解。首先是对于量比较大的数据如密度、流量,进行归一化处理。然后再面对天气、时间段以及日期的时候,我们先根据时间分离出了早晚高峰、阴晴雨雪、工作日/假期的特征。然后根据这种情况进行one-hot编码。但是不同的地方在于,工作日/假期,早晚高峰平常时段这些都是对于交通情况有正向或者负向的影响的。所以这一部分也是值得注意的。在进行编码完成之后,就要建立模型进行训练了

 

建模评估:

在我尝试一些算法之后,使用GBDT和SVM的效果都不错。关于效果我是使用损失函数来计算预测数值和实际数值的损失数值来进行衡量的。

 

测试模型:

把原始数据中一些没有用于训练的测试集进行比对,来看效果是否好。

 

 

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值