Let’s Find a Leak

最近老肥在做厦门赛的题目,突然间有多名选手得分暴涨,我个人认为这其中要么是找到了极佳的上分点,要么就是挖掘到了赛题数据当中的leak, 于是我也开始挖掘本题可能存在的泄露

Leak主要是和数据标签存在某种隐藏联系,于是我先找到主表的标签y_train数据表,一下就发现了很有意思的分布,正标签全部分布在负标签之前。

a81a019d8c9050d90b152c40851a8cb3.png

这种泄露似乎有些低级,但当我们把标签merge到数据主表x_train之后发现不再存在这种现象,正标签不再时完全分布在负标签之后。

进一步对x_train数据进行观察分析,得到新一步的结论,每一个core_cust_id都存在同样的现象,而非整体数据的现象--即每一个core_cust_id中,正标签完全分布在负标签之后

b9141f0fec2176515bcba345e6577848.png

上图cum列为以core_cust_id为键的计数累计值,每一个core_cust_id只有在其第一行数据标签为1时后面的标签才有可能为1,只有在其前二行数据标签为1时,后面的标签才有可能为1,以此类推。可以看到数据所在的位置与标签存在极强的关联性,直接把groupby之后的index当作特征可以获得极大的收益,并且在测试集存在同样的现象。

其实,很多比赛存在着leak现象,姬哀老师在文章《盘点数据挖掘竞赛中的泄露》[1]中对数据挖掘竞赛中出现的泄露进行总结,大家也可以移步阅读。

[1] https://zhuanlan.zhihu.com/p/283730120

——END——
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值