阿里妈妈IJCAI_2018赛后总结

最新推荐文章于 2024-09-04 21:06:27 发布

小人国的蜗牛

最新推荐文章于 2024-09-04 21:06:27 发布

阅读量1.4k

点赞数 3

分类专栏：统计学习方法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_24699745/article/details/80328513

版权

本文是作者对阿里妈妈IJCAI_2018比赛的赛后总结，分析了成绩不理想的原因，包括技能不足、特征工程投入不够、验证方式选择及精力分散等。提出了训练集划分、特征提取和lgb+lr模型的使用方案，讨论了模型验证的局限性，并表示将进一步细化分享具体细节。

摘要由CSDN通过智能技术生成

赛题背景

关于比赛的介绍，这里就不做赘述了
https://tianchi.aliyun.com/competition/introduction.htm?raceId=231647

成绩不够好的原因（一百多名，总人数5000多人）

首先也是最重要的是“弱”，会的东西太少，比赛没有用到什么特别特殊的方法，稍微特殊一点的只是lgb+lr
复赛方向有问题，没有在提取特征上花费足够多的时间
没有一套完善的特征筛选的方案，纯粹的凭借感觉，虽然有尝试用一些网上别人提过的方法，但是效果都不好
复赛过程中精力不是很集中

具体的方案

训练集选取以及验证方式的选定

由于第七天（特殊日期）上半天作为训练集，这么选取的原因有两个。一是第七天上半天距离第七天下半天近（线上测试集），二是因为前面几天的数据分布和第7天差异过大。
验证方式采用直接在训练集上面做一个交叉验证，但是这种方式个人赛后觉得不太合适，因为我本地lgb要优于lgb+lr,但是实际线上lgb+lr要优于lgb，这里交叉验证并没有发现lgb的过拟合。所以个人一定程度上觉得这个验证方式可能不是特别合适。但是绝大多数时候cv还是可以同线上保持同样的趋势。

特征

将训练集合划分成3部分，第0

最低0.47元/天解锁文章

小人国的蜗牛

关注

3
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。