判断缺失值
- isnull()
- notnull()
import pandas as pd
from numpy import NaN,NAN,nan
import numpy as np
print(pd.isnull(NaN))
print(pd.isnull(NAN))
print(pd.isnull(nan))
print(pd.isnull(True))
True
True
True
False
print(pd.notnull(NaN))
print(pd.notnull(NAN))
print(pd.notnull(nan))
print(pd.notnull(True))
False
False
False
True
读取文件时产生的缺失值
pd.read_csv()函数中有三个参数与缺失值有关:
- na_values:可以额外指定缺失值,比如99作为缺失值,na_values=[99]
- keep_default_na:布尔值,默认为True,即na_values额外指定的值会追加到现有的缺失值中。设为False则只使用na_values已有的值
- na_filter:布尔值,默认为True,即把缺失值编码成NaN。设为False,则不会将任何值编码成NaN。可在不含缺失值的情况下加快读取数据的速度。
print(pd.read_csv('data/survey_visited.csv'))
ident site dated
0 619 DR-1 1927-02-08
1 622 DR-1 1927-02-10
2 734 DR-3 1939-01-07
3 735 DR-3 1930-01-12
4 751 DR-3 1930-02-26
5 752 DR-3 NaN
6 837 MSK-4 1932-01-14
7 844 DR-1 1932-03-22
# 加载数据时不包含默认缺失值
print(pd.read_csv('data/survey_visited.csv',
keep_default_na=False)<