【赛题描述】
本次赛题需要选手利用历史某3年的汽车日上牌数据,预测某2年每天的汽车上牌数。初赛将挑选出5个汽车品牌,给出这些品牌每天的上牌数,当天是星期几,来预测5个汽车品牌未来每天的上牌总数。
【数据说明】
【题目分析】
首先,本次比赛的题目是一个预测问题,从过去数据中找到某种规则并对之后的事件进行预测。
其次,从训练集可以看到,每条样本有四个属性,date是一个从1到n的连续值;day_of_week是一个离散属性,属性值包含1到7;brand也是一个离散属性,属性值包含1到5;cnt即为我们的目标属性也就是当天的汽车上牌量(整数)。
请注意:提交结果只需预测当天物种测量的总上牌量即可,而并不需要预测出5种车辆相应的上牌量。
【本文方法】
通过探索性分析找出样本潜在属性来替代date,将预测问题转化为一个回归问题,将最后的预测值取整得到结果
-------------------------------------------------------------------分 割 线-----------------------------------------------------------------
【一般数据挖掘流程】
1、定义问题:即分析问题,确定问题的属性
2、收集数据:本册竞赛已经给出了数据集,在网站上下载即可
3、数据清洗:将数据集中的缺失项,异常值进行优化处理,保证后续工作正常开展
4、进行探索性分析(EDA):通过图形化数据分析找出潜在问题
5、模型选择:既选择处与问题相匹配的机器学习算法
6、模型拟合与优化处理
-------------------------------------------------------------------分 割 线-----------------------------------------------------------------
【探索性分析】
1、先将同一天的汽车上牌量总数求出来ÿ