机器学习实战——数据探索之数据泄露(Data Leakage)

1、什么是数据泄露

数据科学的中的数据泄露(Data Leakage)和其他场合涉及信息安全的数据泄漏不一样,是指一些feature不是在因果关系上顺利释预测值的‘因’,而是预测值的‘果’,存在和利用这种因果倒置的feature的现象,叫数据竞赛中的Data Leakage。

Data Leakage 基本都是竞赛主办方在准备数据或者数据采样的时候出了问题,误将与结果直接相关或存在颠倒因果关系的feature纳入了数据集。这样的纰漏,比较难以发现。

 

2、数据泄露的案例

Data Leakage 在数据科学竞赛中时常发生。比如这样一个案例:

在男性前列腺癌数据中,有个feature叫PROSSUG,代表着这个患者是否接受过前列腺的手术,这个feature很难说是病人患前列腺癌的‘原因’,而更像是一个标记,当然与病人是否患有前列腺癌极度相关。依靠着这样的feature训练出来的模型,肯定能够得到很好的预测结果,但对实际了解男性前列腺癌的成因,没有一点帮助。

 

3、如何探索数据泄露

在实际竞赛中,我们首先要对数据进行探索,观察是否存在数据泄露并处理。可以从两方面考虑:

(1) 训练集和提交的测试集中是否出现了重复的id;

(2) 训练集和提交的测试集中是否出现了除id不同,其他特征都一样的情况。

  • 3
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值