印象盐城数创未来大数据竞赛上牌赛总结:

这个比赛是我的第一次机器学习比赛,成绩还算凑合,第一赛季mse67w多,勉强进了第二赛季,第二赛季mse在4w8,和前面的大神差了快一倍,总结这次的比赛,为之后打好基础。
刚接触到题目的时候,完全没有思路,导入数据,用matplotlib画了图看了下数据曲线;
最初的想法是利用day_of_week来拟合七条曲线进行预测,但是对于预测算法毫无思路。
后来在技术圈看到了麻婆豆腐大佬的分享,按照他的代码,依葫芦画瓢,用加权平均的方法提交了第一次结果,mse88w,效果在当时还可以;
之后尝试了金融上常用的arima模型,但是对于arima的理解不够深入,加上使用了每天的上牌数作为特征,导致数据中存在大量的极端值,模型训练的不好,mse在141w;
后来在写基金申请的时候,接触到了lstm长短期记忆网络,本打算使用lstm做一下尝试,后来因为赶基金的申请加上过年期间评测关闭,也就放弃了;
过年后评测开始前,在某群里和别人尬聊,知道了活动行为认知中常用的提取时序特征的库tsfresh,阅读了官方文档后,简单的做了一下,mse在91w;
最后成为了进第二轮,做了最后的尝试,利用day_of_week推日期,提取了year,month_of_year,day_of_month,season,ten_day(上中下旬);并利用xgboost建模,第一赛季B榜mse在81w左右,最后一天,有提取了在每个法定假日前一天、后一天的特征,最终mse到了67w,侥幸进了第二赛季;
第二赛季使用之前的特征,加上在法定假日的工作日的特征,使用xgboost和lightgbn分别进行训练,最后将两个的结果作为特征输入到xgboost,做模型融合,最后的分数在4w8;
比赛结束后,看了成绩比较好的人分享,差距主要在特征工程上面,根据有限的数据,提取的特征比我提取的多,甚至考虑了农历年的特征;
需要改进的地方:
1.对于xgboost和lightgbm的理解以及调参;
2.对于不同的模型都阅读一下paper,加深理解;
3.争取早日看完周志华老师的《机器学习》
以后的工作:这次的比赛结束后,报名了ijcai和阿里妈妈联合主办的广告预估率的比赛,这次的比赛应该有很多大佬参加,希望能再接再厉们争取继续苟进第二赛季
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值