python缺失数据处理_Python数据清洗--缺失值识别与处理

最新推荐文章于 2023-12-15 14:55:39 发布

weixin_39942995

最新推荐文章于 2023-12-15 14:55:39 发布

阅读量596

点赞数

文章标签： python缺失数据处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_39942995/article/details/112023411

版权

本文介绍了Python中如何识别和处理缺失值。通过使用`isnull()`方法检查数据集中变量和行的缺失值，然后探讨了删除法、替换法和插补法等处理策略，包括使用平均值、众数以及KNN算法进行缺失值填补。

摘要由CSDN通过智能技术生成

快动动手指！

前言

在《Python数据清洗--类型转换和冗余数据删除》中分享了有关数据类型转换和冗余信息删除的两个知识点，接下来继续讲解缺失值的识别和处理办法。缺失值指的是由于人为或机器等原因导致数据记录的丢失或隐瞒，缺失值的存在一定程度上会影响后续数据分析和挖掘的结果，所以对他的处理将显得尤为重要。

缺失值的识别

判断一个数据集是否存在缺失观测，通常从两个方面入手，一个是变量的角度，即判断每个变量中是否包含缺失值；另一个是数据行的角度，即判断每行数据中是否包含缺失值。关于缺失值的判断可以使用isnull方法。下面使用isnull方法对data3数据(数据可至中---下载)进行判断，统计输出的结果如下表所示。

# 判断各变量中是否存在缺失值

data3.isnull().any(axis = 0)

# 各变量中缺失值的数量

data3.isnull().sum(axis = 0)

# 各变量中缺失值的比例

data3.isnull().sum(axis = 0)/data3.shape[0]

如上结果所示，数据集data3中有三个变量存在缺失值，即gender、age和edu，它们的缺失数量分别为136、100和1,927，缺失比例分别为4.53%、3.33%和64.23%。

需要说明的是，判断数据是否为缺失值NaN，可以使用isnull“方法”，它会返回与原数据行列数相同的矩阵，并且矩阵的元素为bool类型的值，为了得到每一列的判断结果，仍然需要any“方法”(且设置“方法”内的axis参数为0)；统计各变量的缺失值个数可以在isnull的基础上使用sum“方法”(同样

最低0.47元/天解锁文章

weixin_39942995

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。