最近在天池打了一个大数据比赛,还是和之前打过的KDD CUP一样的交通流预测,但是这次做的时候没有简单粗暴的使用规则型方式导出结果,而是选择了提取特征后建模的方法,在初赛取得了73/1716的成绩,感觉有一些收获在这里记录一下,没有什么干货,只当成日记,希望来日回望,还识得如此青葱少年。
开始:
7月20号我从泰安出发回青岛上学,觉得在暑假里可以搞一些好玩的东西了,说实话这个季节青岛是真tm热,坐在宿舍里一动不动都能汗流浃背,很想念家里的空调。最开始的时候本来是想做天池的新手训练赛的,因为自己对数据挖掘也不是特别懂,想着通过比赛顺便学一些模型和处理数据的技巧,也能剩下一些时间去学习C++继续写我的机器学习模型库。我就去和老师说我想做这个新手训练赛,求大佬带我,然后老师说别做这个比赛了,这个没有奖金的,竞争不激烈来打另外一个吧,就这样我被老师拉进了一个队伍,除了老师以外还有一个数学统计系的漂亮学姐。就这样我开始了征战这个比赛的漫漫长路。
赛题:
这次的比赛依旧是旅行时间预测,跟2017 KDD CUP的taskI是一样的,只是我当时做的是taskII。起初看到题目还觉得挺简单的,因为没有KDD那种繁杂的数据和抽象的图,也没有乱七八糟的天气等其他特征,整个题目就提供了三个数据集,道路Link的拓扑关系,道路Link的路长和路宽,旅行时间。后来发现数据集实在是太大,给了132个Link的数据,拓扑关系相当复杂,光样本加起来有8W多,各种特征提取出来都放到内存里,我不争气的4G的虚拟机开始报错Error