阿里妈妈IJCAI_2018赛后总结

本文是作者对阿里妈妈IJCAI_2018比赛的赛后总结,分析了成绩不理想的原因,包括技能不足、特征工程投入不够、验证方式选择及精力分散等。提出了训练集划分、特征提取和lgb+lr模型的使用方案,讨论了模型验证的局限性,并表示将进一步细化分享具体细节。
摘要由CSDN通过智能技术生成

赛题背景

关于比赛的介绍,这里就不做赘述了
https://tianchi.aliyun.com/competition/introduction.htm?raceId=231647

成绩不够好的原因(一百多名,总人数5000多人)

  1. 首先也是最重要的是“弱”, 会的东西太少, 比赛没有用到什么特别特殊的方法, 稍微特殊一点的只是lgb+lr
  2. 复赛方向有问题, 没有在提取特征上花费足够多的时间
  3. 没有一套完善的特征筛选的方案,纯粹的凭借感觉, 虽然有尝试用一些网上别人提过的方法, 但是效果都不好
  4. 复赛过程中精力不是很集中

具体的方案

训练集选取以及验证方式的选定

  由于第七天(特殊日期)上半天作为训练集,这么选取的原因有两个。一是第七天上半天距离第七天下半天近(线上测试集),二是因为前面几天的数据分布和第7天差异过大。
  验证方式采用直接在训练集上面做一个交叉验证,但是这种方式个人赛后觉得不太合适,因为我本地lgb要优于lgb+lr,但是实际线上lgb+lr要优于lgb,这里交叉验证并没有发现lgb的过拟合。所以个人一定程度上觉得这个验证方式可能不是特别合适。但是绝大多数时候cv还是可以同线上保持同样的趋势。

特征

  将训练集合划分成3部分,第0

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值