dropna()删除缺失值_数据分析—缺失值处理

最新推荐文章于 2023-08-14 10:22:47 发布

动画民工

最新推荐文章于 2023-08-14 10:22:47 发布

阅读量4.9k

点赞数

文章标签： dropna()删除缺失值

本文链接：https://blog.csdn.net/weixin_30831105/article/details/112109895

版权

本文介绍了数据分析中处理缺失值的方法，包括使用pandas的dropna()函数进行删除，fillna()函数进行填充，以及插值法如中位数、众数、平均值、临近值和拉格朗日插值法。示例代码详细展示了各种操作的实现。

摘要由CSDN通过智能技术生成

数据分析—缺失值处理

我们获取到的数据(尤其是数据量比较大时)，很有可能会出现数据缺失、数据异常等问题，数据处理是数据分析里十分重要且必须的一个环节，为了在做数据分析时尽可能减少异常的出现，以及得出更精准的分析结论，因此在做数据分析之前，数据处理显得尤其必要

阅读条件：熟悉pandas基本操作

使用工具：Python

使用平台：jupyter notebook

缺失值处理

缺失值判断

python主要读取的是csv或者excel数据，excel中单元格为空时，pandas读取显示的是NaN，即为缺失值

判断缺失值数据方法：isnull，notnull

首先导入python数据分析必选工具包

import numpy as npimport pandas as pd__author__='莫叹'复制代码

生成一个表格型的二维数组df

#生成一个表格型的二维数组df=pd.DataFrame({'a':[34,6,20,np.nan,56], 'b':['','number','one','good',np.nan]})复制代码

输出如下：

判断数据中是否存在缺失值以及非缺失值数据筛选：

#判断二维数组df是否缺失print(df.notnull(),'')#通过索引判断a列是否缺失print(df['a'].notnull(),'')#筛选a列不存在缺失值数组print(df[df['a'].notnull()])复制代码

输出如下：

 a b0

关注