c50数据集churn_机器学习中的数据泄露(Data Leakage)

本文通过电信客户流失案例探讨数据泄露在建模中的影响,指出TOT_IB_CALL_DUR特征与CHURN_FLG的强负相关可能造成数据泄露,影响模型性能。通过决策树模型展示过滤此特征前后的区别,强调模型评估和数据探索的重要性。
摘要由CSDN通过智能技术生成

149f5b091d346a2471b45c9f638de3eb.png

数据泄露这个概念在kaggle算法竞赛中经常被提到,这个不同于我们通常说的生活中隐私数据暴露,而是在竞赛中经常出现某支队伍靠着对极个别feature的充分利用,立即将对手超越,成功霸占冠军位置,而且与第二名的差距远超第二名与第十名的差距,那么很有可能是出现了数据泄露(Data Leakage)这些feature却不是在因果关系上顺利解释预测值的‘因’,反而是预测值的‘果’。

1. 目标

本篇文章讲通过“电信客户流失案例”来证明数据泄露在实际业务场景和建模比赛中产生的影响,并提供如何防止“数据泄露”现象的方法

2. 数据集介绍

Telechurnwithoutnull.csv为数据集,该数据集已进行过缺失值的处理。

数据集共有46个变量,13196条数据,字段均为英文名。其中标签字段为“CHURN_FLG”。

zhimg_answer_editor_file_table.svg
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值