机器学习中的数据泄露(Data Leakage)

最新推荐文章于 2025-03-15 14:09:27 发布

grantpole

最新推荐文章于 2025-03-15 14:09:27 发布

阅读量1.5w

点赞数 11

分类专栏： Machine Learning 文章标签：数据泄露 Data Leakage 数据分析

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/lomodays207/article/details/87607569

版权

Machine Learning 专栏收录该内容

12 篇文章

订阅专栏

Data Leakage in Machine Learning
在 Kaggle竞赛中出现过奇怪的现象：一只队伍，靠着对极个别特征feature的充分利用（被称为魔法属性），立即将对手超越，成功霸占冠军位置。然而，这可能是竞赛方数据准备过程中出现的失误，使模型沿着有纰漏的，甚至是颠倒的因果关系进行预测，但在测试数据中得到预测结果是极好的。

1.什么是机器学习中的 Data Leakage ?

数据泄漏Data Leakage是在数据分析中需要解决的重要问题之一。

这里的Data Leakage 跟其他场合说的数据泄漏完全不一样，简单来说，数据泄漏会导致模型看起来很精确，当你开始使用模型在真实的世界中做决策的时候，模型变得非常不准确。

数据中存在倒“因”为“果”的feature的现象，叫数据竞赛中的Data Leakage。

此外，还有一种数据泄露叫做：Leaky Validation Strategies.

当处理训练数据和验证数据不合理时，会发生一种截然不同的泄漏类型。例如，如果在调用train_test_split之前运行预处理（比如为丢失的值拟合填充），就会发生这种情况。

Validation 是一种度量模型，用来以前没有见过的数据来评估模型的性能。例如，如果规范化或标准化整个数据集，然后使用交叉验证评估模型的性能，那么就产生了数据泄漏的问题。

2.案例解释

例如，假设你想预测谁会患肺炎。原始数据的前几行可能如下所示：
在这里插入图片描述
人们在患肺炎（got_pneumonia）后服用抗生素药物（took_antibiotic_medicine）以恢复健康，所以原始数据显示了这些列之间的强关系，但是这个特征feature-是否服用抗生素很难说是病人患肺炎的原因，不能说服用了抗生素而导致患肺炎。

是否服用抗生素这个feature而更像是一个标记，当然与病人是否患肺炎极度相关，根据这样的feature训练出来的模型，肯定能够得到很好的预测结果，但对实际了解患肺炎的原因，没有一点帮助。

3.总结及Tips

没有标准的解决方案可以普遍地防止漏泄预测，它需要对数据进行充分的分析，深入了解探索你的数据。

一般来说，数据漏泄预测因子（特征属性）往往与目标具有很高的相关性。在实际机器学习建模时候，有两点可以关注下：

为了查找可能的Data Leakage，要统计分析与目标target相关的列；
如果你建立一个模型并发现它非常精确，可能有一个数据泄漏问题；
在交叉验证折叠中使用原始没进过预处理的数据；
使用Pipelines。比如： scikit-learn Pipelines；
使用Holdout Dataset。在使用模型之前，保留一个未使用过的的验证数据集作为对模型的最终健全性检查。

评论 3

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。