dataFrame中,若空值已经被标注为了"unkown"或"?"的处理方法

当CSV文件中的空值被表示为'?'时,标准的isnull()函数无法检测。本文介绍了三种解决方案:1)读取文件时设定'?'为NaN值;2)直接检查'?'并统计出现次数;3)先将'?'转换为NaN再使用isnull()。这些方法帮助你有效地管理和统计CSV中的空值。
摘要由CSDN通过智能技术生成

如果此时使用isnull函数不可行,官方文档写的很清楚,像空值已经被换成"?"的情况是检查不出来的(doge)

对于这个问题,我们使用三种方法解决,为了方便,我们假设空值现在都是"?"。

1.读文件时设置

将"?"视为空值,然后使用isnull正常统计

df = pd.read_csv("你的文件名.csv",na_values = '?')

 然后,打印结果

missing_values_count = df.isnull().sum()  
print(missing_values_count)

 如果想自定义输出结构,还可以这样写:

cols_with_missing = [col for col in df.columns if df[col].isnull().any()]
print(cols_with_missing)

for i in cols_with_missing:
    print(i + ': ' + str(df[i].isnull().sum()))

2.检查 "?" 并统计

df = pd.DataFrame({'Yes': [50, 21, '?', 70, 21], 'No': [131, 2, 98, 1, 3]})

index = [i for i in df.columns if df[i].isin(['?']).any()]
print(index)

for i in index:   
    print(i + ':  ' + str((df[i] == '?').sum()))

其中,isin代表改列的元素出现在含"?"的列表中,any代表只要存在这样的元素,就将列的名称加到包含所有含"?"的的列表中。

随后,对于含"?"的列,我们对"?"求和,得到结果

['Yes']
Yes:  1

第一行输出了所有含”?”的列名,第二行统计了每一个含"?"的列中,"?"的个数。

3.先转化为nan,随后用我们熟悉的isnull处理

先替换

df = pd.DataFrame({'Yes': [50, 21, '?', 70, 21], 'No': [131, 2, 98, 1, 3]})

for column in df.columns:
    df[column].replace('?',np.nan,inplace = True)

然后使用isnull

missing_values_count = df.isnull().sum()  
print(missing_values_count)

结果为

Yes    1
No     0
dtype: int64

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值