数据的预处理之缺失值处理

最新推荐文章于 2024-08-07 11:38:54 发布

修炼之路

最新推荐文章于 2024-08-07 11:38:54 发布

阅读量2.1w

点赞数 7

分类专栏：机器学习 python机器学习实战

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/sinat_29957455/article/details/79418041

版权

python机器学习实战同时被 2 个专栏收录

43 篇文章 835 订阅 ¥9.90 ¥99.00

订阅专栏

超级会员免费看

57 篇文章 21 订阅

订阅专栏

在模型训练前，数据预处理至关重要，尤其是处理缺失值。缺失值可能因多种原因存在，直接忽略可能导致算法异常。本文介绍了如何利用Python的pandas库检查数据缺失值分布，并提供了删除和有条件删除含缺失值数据的策略，如删除全空行、按阈值删除、按列删除等。

摘要由CSDN通过智能技术生成

在训练一个模型之前需要做数据的预处理，因为模型的最终效果决定于数据的质量和数据中蕴含的有用信息的数量。在实际的模型的训练样本数据中，样本可能会由于某些原因，造成一个或多个值的缺失。可能由于样本采集过程中的失误，或者度量方法对于某些特征不适用，或者数据未被填写等。在表格中缺失值通常是以空值的形式或者是NA(Not A Number)存在的。如果我们直接忽视这些缺失值可能有些算法无法处理这些缺失值，将会触发异常。如果，我们之间将包含缺失值的数据删除就会造成数据的浪费，而且有时候可能数据本来就不多，删除包含缺失值的数据之后数据就更少了，这将会影响我们训练出来模型的泛化能力。对于数据较多的情况，可以做一些删除处理。除此之外，我们还可以对缺失值进行填充，下面就介绍一些缺失数据的处理方式。

在使用python进行数据分析处理的时候，我们可以通过第三方库pandas来进行，可以极大的简化处理步骤。

一、查看数据缺失值的分布情况

1.

了解本专栏

超级会员免费看

关注

7
点赞
踩
22

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

修炼之路 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。