排名 168,成绩72.93% 第一名82.9%
训练数据
1 得到数据后导入数据库
2 统计数据中各个时段和各个线路的count数目 数据由一千万变为一万以内
3 统计6-21时的数据 数据条目再次降到5000左右
天气数据
4 表中的年月日进行字符规整 替换成同一模式 为了和训练数据表结合
5 天气表中的中文字符进行数值化 这一过程很关键 作为数据输入部分会有很大影响!!!
结合
6 训练数据表和天气数据表进行结合筛选
7 进一步规整train_data和train_label 以及test_input数据
8 导出数据库 导出为txt文件
9 读入 matlab或是python进行算法验证 得到结果result_label
10 result_label导入数据库合成想要的表再导出
11 提交
方法
1 第一天 将所有数据进行多元线性回归做法 并不合适
2 第二天 将方法改为回归树进行预测结果效果并不好 因为是在所有的数据基础上进行的操作
3 第三天 将数据进行分时段预测 分别预测出6-21时16个时段的人流量 去除了路线特征
4 第四天 将数据进行节假日判断 分别预测 并且看到冬令时和夏令时的可能影响 分别训练求解