![149f5b091d346a2471b45c9f638de3eb.png](https://i-blog.csdnimg.cn/blog_migrate/4865c9b4157ce1d673d72df2d1f65acb.jpeg)
数据泄露这个概念在kaggle算法竞赛中经常被提到,这个不同于我们通常说的生活中隐私数据暴露,而是在竞赛中经常出现某支队伍靠着对极个别feature的充分利用,立即将对手超越,成功霸占冠军位置,而且与第二名的差距远超第二名与第十名的差距,那么很有可能是出现了数据泄露(Data Leakage)。这些feature却不是在因果关系上顺利解释预测值的‘因’,反而是预测值的‘果’。
1. 目标
本篇文章讲通过“电信客户流失案例”来证明数据泄露在实际业务场景和建模比赛中产生的影响,并提供如何防止“数据泄露”现象的方法。
2. 数据集介绍
Telechurnwithoutnull.csv为数据集,该数据集已进行过缺失值的处理。
数据集共有46个变量,13196条数据,字段均为英文名。其中标签字段为“CHURN_FLG”。