如果此时使用isnull函数不可行,官方文档写的很清楚,像空值已经被换成"?"的情况是检查不出来的(doge)
对于这个问题,我们使用三种方法解决,为了方便,我们假设空值现在都是"?"。
1.读文件时设置
将"?"视为空值,然后使用isnull正常统计
df = pd.read_csv("你的文件名.csv",na_values = '?')
然后,打印结果
missing_values_count = df.isnull().sum()
print(missing_values_count)
如果想自定义输出结构,还可以这样写:
cols_with_missing = [col for col in df.columns if df[col].isnull().any()]
print(cols_with_missing)
for i in cols_with_missing:
print(i + ': ' + str(df[i].isnull().sum()))
2.检查 "?" 并统计
df = pd.DataFrame({'Yes': [50, 21, '?', 70, 21], 'No': [131, 2, 98, 1, 3]})
index = [i for i in df.columns if df[i].isin(['?']).any()]
print(index)
for i in index:
print(i + ': ' + str((df[i] == '?').sum()))
其中,isin代表改列的元素出现在含"?"的列表中,any代表只要存在这样的元素,就将列的名称加到包含所有含"?"的的列表中。
随后,对于含"?"的列,我们对"?"求和,得到结果
['Yes']
Yes: 1
第一行输出了所有含”?”的列名,第二行统计了每一个含"?"的列中,"?"的个数。
3.先转化为nan,随后用我们熟悉的isnull处理
先替换
df = pd.DataFrame({'Yes': [50, 21, '?', 70, 21], 'No': [131, 2, 98, 1, 3]})
for column in df.columns:
df[column].replace('?',np.nan,inplace = True)
然后使用isnull
missing_values_count = df.isnull().sum()
print(missing_values_count)
结果为
Yes 1
No 0
dtype: int64