数据挖掘实战经验——交通大数据预测

博主在天池大赛中参与交通时间预测比赛,从数据预处理到特征提取再到模型建立,分享了实战经验。通过比赛认识到Python技能和科学计算库的重要性,并反思了在数据分析和建模过程中的不足,强调了前期分析和日志记录的关键性。
摘要由CSDN通过智能技术生成

最近在天池打了一个大数据比赛,还是和之前打过的KDD CUP一样的交通流预测,但是这次做的时候没有简单粗暴的使用规则型方式导出结果,而是选择了提取特征后建模的方法,在初赛取得了73/1716的成绩,感觉有一些收获在这里记录一下,没有什么干货,只当成日记,希望来日回望,还识得如此青葱少年。


开始:

7月20号我从泰安出发回青岛上学,觉得在暑假里可以搞一些好玩的东西了,说实话这个季节青岛是真tm热,坐在宿舍里一动不动都能汗流浃背,很想念家里的空调。最开始的时候本来是想做天池的新手训练赛的,因为自己对数据挖掘也不是特别懂,想着通过比赛顺便学一些模型和处理数据的技巧,也能剩下一些时间去学习C++继续写我的机器学习模型库。我就去和老师说我想做这个新手训练赛,求大佬带我,然后老师说别做这个比赛了,这个没有奖金的,竞争不激烈来打另外一个吧,就这样我被老师拉进了一个队伍,除了老师以外还有一个数学统计系的漂亮学姐。就这样我开始了征战这个比赛的漫漫长路。


赛题:

这次的比赛依旧是旅行时间预测,跟2017 KDD CUP的taskI是一样的,只是我当时做的是taskII。起初看到题目还觉得挺简单的,因为没有KDD那种繁杂的数据和抽象的图,也没有乱七八糟的天气等其他特征,整个题目就提供了三个数据集,道路Link的拓扑关系,道路Link的路长和路宽,旅行时间。后来发现数据集实在是太大,给了132个Link的数据,拓扑关系相当复杂,光样本加起来有8W多,各种特征提取出来都放到内存里,我不争气的4G的虚拟机开始报错Error

评论 8
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值