几乎任何一个数据集都含缺失数据。缺失数据有多种表示形式。在数据库中,缺失数据表示为NULL值;在某些编程语言中使用NA表示。根据数据的来源,缺失值可能是空存字符串(‘’)或数值(比如88或99)。在Pandas值使用NaN表示缺失值。
Pandas中的NaN值来自NumPy库,在NumPy中,缺失值有几个表达形式:NaN、NAN或者nan,但它们都是等同的。
缺失值和其它类型的数据不同,实际上它们无甚意义。数据缺失了,也就无所谓等于或不等于。NaN也不等同于0或者空字符串(‘’)。
Pandas可以使用isnull方法测试某个值是否为缺失值,notnull方法也可用于判断某个值是否为缺失值。
数据加载时Pandas会自动查找缺失数据单元,并在Data Frame中对该单元给出一个NaN值。在read_csv函数中,有3个参数与缺值的读取有关:na_values、keep_default_na和na_filter。
na_values参数允许指定额外的缺失值或NaN值,读取文件时,可用传