数据分析—缺失值处理
我们获取到的数据(尤其是数据量比较大时),很有可能会出现数据缺失、数据异常等问题,数据处理是数据分析里十分重要且必须的一个环节,为了在做数据分析时尽可能减少异常的出现,以及得出更精准的分析结论,因此在做数据分析之前,数据处理显得尤其必要
阅读条件:熟悉pandas基本操作
使用工具:Python
使用平台:jupyter notebook
缺失值处理
缺失值判断
python主要读取的是csv或者excel数据,excel中单元格为空时,pandas读取显示的是NaN,即为缺失值
判断缺失值数据方法:isnull,notnull
- isnull:True表示缺失,False表示非缺失
- notnull:True表示非缺失,False表示缺失
首先导入python数据分析必选工具包
import numpy as npimport pandas as pd__author__='莫叹'复制代码
生成一个表格型的二维数组df
#生成一个表格型的二维数组df=pd.DataFrame({'a':[34,6,20,np.nan,56], 'b':['','number','one','good',np.nan]})复制代码
输出如下:
判断数据中是否存在缺失值以及非缺失值数据筛选:
#判断二维数组df是否缺失print(df.notnull(),'')#通过索引判断a列是否缺失print(df['a'].notnull(),'')#筛选a列不存在缺失值数组print(df[df['a'].notnull()])复制代码
输出如下:
a b0