1.检查是否有缺失值
列:
data.isnull().any()
print(data.isnull().any())
false无缺失值/true有缺失值
结果例样:
age false
name false
school true
school的这一列有缺失值,其他列无缺失值。
行:
data.isnull().any(axis=1)
print(data.isnull().any(axis=1))
false无缺失值/true有缺失值
结果例样:
0 False
1 False
2 False
3 False
4 False
5 False
6 False
7 False
8 True
0-7行无缺失值,第8行有缺失值。
2.统计缺失值的数量
列:
data.isnull().sum()
print(data.isnull().sum())
#想只显示age这一列的缺失值数量:
#data.age.isnull().sum()
#print(data.age.isnull().sum())
输出例样:
age 0
name 0
school 20
data.isnull().any().sum()#统计共有几列存在缺失值
print(data.isnull().any().sum())
结果为:1
行:
data.isnull().sum(axis=1)
print(data.isnull().sum(axis=1))
输出例样:
1 0
2 2
3 1
第二行有2个缺失值,第三行有1个缺失值。
data.isnull().any().sum(axis=1)#统计共有几行存在缺失值
print(data.isnull().any().sum(axis=1))
结果为2
3.替换缺失值
m, n = data.shape #数据维度;i,j根据数据定义
for i in range(0, m):
for j in column:
if data.loc[i, j] == 'X':
data.loc[i, j] = NA
用NA替换数据中的X
4.显示完整数据
pd.set_option('display.max_rows', None)
有时候数据多,结果为省略号。