在大多数的数据分析应用中,经常会遇到缺失值,常见的缺失值处理方式有过滤和填充。在 Python 中,pandas 使用浮点值 NaN 表示浮点数和非浮点数组中的缺失值,同时 Python 内置 None 值也会被当作缺失值。在处理缺失值之前,首先要判断缺失值是否存在,然后再对缺失值进行删除、填充或者不处理的操作。
判断缺失值的函数
在 pandas 中判断缺失值的函数如下。
1) isnull() 函数
isnull() 函数语法格式:isnull(obj)。其中,参数 obj 表示接收标量或数组,用于检查空值或缺失值的对象;如果有空值或缺失值则返回 True,否则返回 False。
2) notnull() 函数
notnull() 函数语法格式:notnull(obj)。其中,参数 obj 接收 ndarray 或对象值,用于检查不为空值或缺失值的对象;如果有空值或缺失值则返回 False,否则返回 True。
通过 isnull() 函数和 sum() 函数可以获得 Series 和 DataFrame 中缺失值的数量。
处理缺失值的方法
数据缺失值的处理方法有以下 3 种:
删除含有缺失值的记录;
进行数据插补;
不处理空值或缺失值。
1) 删除含有缺失值的记录
在数据分析中,如果数据集的样本很大,并且在删除含有缺失值的记录后,不会影响分析结果的客观性和准确性时,一般使用 dropna() 函数直接将空值或缺失值的数据删除。
dropna() 函数的语法格式如下。
DataFrame.dro