阿里云天池竞赛——盐城汽车上牌量预测前10%方案

本文介绍了参加阿里云天池竞赛的解决方案,针对汽车上牌量预测问题,通过数据清洗、探索性分析、特征工程和随机森林回归模型,将问题转化为回归任务。通过对日期、星期几和上牌量的分析,发现数据的周期性和异常值,最终通过添加季节属性提高预测准确性,取得初赛前10%的成绩。
摘要由CSDN通过智能技术生成

【赛题描述】

本次赛题需要选手利用历史某3年的汽车日上牌数据,预测某2年每天的汽车上牌数。初赛将挑选出5个汽车品牌,给出这些品牌每天的上牌数,当天是星期几,来预测5个汽车品牌未来每天的上牌总数。

【数据说明】



【题目分析】

首先,本次比赛的题目是一个预测问题,从过去数据中找到某种规则并对之后的事件进行预测。

其次,从训练集可以看到,每条样本有四个属性,date是一个从1到n的连续值;day_of_week是一个离散属性,属性值包含1到7;brand也是一个离散属性,属性值包含1到5;cnt即为我们的目标属性也就是当天的汽车上牌量(整数)。

请注意:提交结果只需预测当天物种测量的总上牌量即可,而并不需要预测出5种车辆相应的上牌量。

【本文方法】

通过探索性分析找出样本潜在属性来替代date,将预测问题转化为一个回归问题,将最后的预测值取整得到结果

-------------------------------------------------------------------分 割 线-----------------------------------------------------------------

【一般数据挖掘流程】

1、定义问题:即分析问题,确定问题的属性

2、收集数据:本册竞赛已经给出了数据集,在网站上下载即可

3、数据清洗:将数据集中的缺失项,异常值进行优化处理,保证后续工作正常开展

4、进行探索性分析(EDA):通过图形化数据分析找出潜在问题

5、模型选择:既选择处与问题相匹配的机器学习算法

6、模型拟合与优化处理

-------------------------------------------------------------------分 割 线-----------------------------------------------------------------

【探索性分析】

1、先将同一天的汽车上牌量总数求出来ÿ

评论 10
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值