缺失数据别怕！这里有份强大的初学者指南

最新推荐文章于 2023-06-14 12:14:15 发布

「已注销」

最新推荐文章于 2023-06-14 12:14:15 发布

阅读量657

点赞数 1

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/duxinshuxiaobian/article/details/99670126

版权

本文详细介绍了数据清理中的关键步骤，特别是针对缺失数据的处理。通过理解数据缺失的类型（MCAR、MAR、MNAR）并应用不同的插补方法，如逻辑回归、线性回归、KNN和多重插补，可以有效管理和改善数据质量，从而提升机器学习模型的性能。数据科学家应该重视数据清理的迭代过程，确保在分析前充分理解数据的完整性。

摘要由CSDN通过智能技术生成

640?wx_fmt=jpeg

全文共4898字，预计学习时长10分钟

640?wx_fmt=png

实际上，数据科学家80％到90％的工作是数据清理，而这项工作的目的是为了执行其余10％的机器学习任务。没有什么比完成数据集分析后的收获更让人兴奋的了。如何减少清理数据的时间？如何为至关重要的10%的工作保留精力？

根据很多专业人士的经验，对数据清理涉及的过程有充分的认知总是好的。了解流程、流程的重要性以及流程中可使用的技巧，将减少执行数据清理任务所需的时间。

640?wx_fmt=jpeg

良好数据的重要性

好的数据被定义为准确、完整、符合、一致、及时、独特且有效的数据。机器学习算法依赖于“好数据”来构建模型，执行和概括性能。对于实际数据，当意识到ML算法不起作用或者ML算法的性能无法在更大的数据集中推广时，通常会发现数据问题。

在第一次数据科学的过程中找到所有数据问题几乎是不可能的。需要做好以下准备：数据清理的迭代过程 - >数据建模 - >性能调整。在迭代过程中，通过从一开始就获得基本面，可以大幅缩短时间。

在统计学中，经常会发现有人将数据分析过程比作约会。在最初的约会中，了解伴侣（即数据）至关重要。是否有可能在后期出现的交易破坏者？这些交易破坏者是你一开始就要抓住的，它们将使数据有失偏颇。

数据中最大的交易破坏者之一是“数据缺失”。

640?wx_fmt=jpeg

了解缺失的数据

缺失的数据可以有各种形状和大小。它们可能类似于下面第1行的数据，其中只有胰岛素栏有所缺失。它们也可以是第2行中丢失的许多栏数据。它们还可以是第3行中包含0的许多栏数据。需要知道它们有许多变体。可视化每列数据只能到此为止。在箱线图中可视化每栏数据以查找异常值。或者使用热图来可视化数据，突出显示缺失的数据。

640?wx_fmt=png

吴军的糖尿病缺失数据

在Python中：

import seaborn as sb

sb.heatmap(df.isnull(),cbar=False)

640?wx_fmt=jpeg

如何对缺失数据进行分类？

640?wx_fmt=jpeg

图片来源：pexels.com/@black-ice-551383

在可视化缺失数据后，第一件事是对丢失的数据进行分类。

有三类缺失数据：完全缺失随机（MCAR），缺失随机（MAR），缺失不随机（MNAR）：

MCAR—缺失值完全随机丢失。数据点丢失的倾向与其假设值和其他变量的值无关。

MAR—由于某些观察到的数据而缺少缺失值。数据点丢失的倾向与丢失的数据无关，但它与一些观察到的数据有关。

MNAR—缺失的值不是随机丢失的，而是有原因的。通常，原因在于缺失值取决于假设值，或者取决于另一个变量的值。

最低0.47元/天解锁文章

「已注销」

关注

1
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。