赛题背景
关于比赛的介绍,这里就不做赘述了
https://tianchi.aliyun.com/competition/introduction.htm?raceId=231647
成绩不够好的原因(一百多名,总人数5000多人)
- 首先也是最重要的是“弱”, 会的东西太少, 比赛没有用到什么特别特殊的方法, 稍微特殊一点的只是lgb+lr
- 复赛方向有问题, 没有在提取特征上花费足够多的时间
- 没有一套完善的特征筛选的方案,纯粹的凭借感觉, 虽然有尝试用一些网上别人提过的方法, 但是效果都不好
- 复赛过程中精力不是很集中
具体的方案
训练集选取以及验证方式的选定
由于第七天(特殊日期)上半天作为训练集,这么选取的原因有两个。一是第七天上半天距离第七天下半天近(线上测试集),二是因为前面几天的数据分布和第7天差异过大。
验证方式采用直接在训练集上面做一个交叉验证,但是这种方式个人赛后觉得不太合适,因为我本地lgb要优于lgb+lr,但是实际线上lgb+lr要优于lgb,这里交叉验证并没有发现lgb的过拟合。所以个人一定程度上觉得这个验证方式可能不是特别合适。但是绝大多数时候cv还是可以同线上保持同样的趋势。
特征
将训练集合划分成3部分,第0