dataFrame中，若空值已经被标注为了＂unkown＂或＂?＂的处理方法

21岁害怕编程

已于 2022-02-28 15:20:46 修改

阅读量284

点赞数 1

分类专栏： pandas python 文章标签： pandas

于 2022-02-27 14:33:09 首次发布

本文链接：https://blog.csdn.net/RuGe_Lee/article/details/123163660

版权

pandas 同时被 2 个专栏收录

14 篇文章 2 订阅

订阅专栏

python

11 篇文章 0 订阅

订阅专栏

当CSV文件中的空值被表示为'?'时，标准的isnull()函数无法检测。本文介绍了三种解决方案：1)读取文件时设定'?'为NaN值；2)直接检查'?'并统计出现次数；3)先将'?'转换为NaN再使用isnull()。这些方法帮助你有效地管理和统计CSV中的空值。

摘要由CSDN通过智能技术生成

如果此时使用isnull函数不可行，官方文档写的很清楚，像空值已经被换成"?"的情况是检查不出来的(doge）

对于这个问题，我们使用三种方法解决，为了方便，我们假设空值现在都是"?"。

１.读文件时设置

将"?"视为空值，然后使用isnull正常统计

df = pd.read_csv("你的文件名.csv",na_values = '?')

然后，打印结果

missing_values_count = df.isnull().sum()  
print(missing_values_count)

如果想自定义输出结构，还可以这样写：

cols_with_missing = [col for col in df.columns if df[col].isnull().any()]
print(cols_with_missing)

for i in cols_with_missing:
    print(i + ': ' + str(df[i].isnull().sum()))

2.检查 "?" 并统计

df = pd.DataFrame({'Yes': [50, 21, '?', 70, 21], 'No': [131, 2, 98, 1, 3]})

index = [i for i in df.columns if df[i].isin(['?']).any()]
print(index)

for i in index:   
    print(i + ':  ' + str((df[i] == '?').sum()))

其中，isin代表改列的元素出现在含"?"的列表中，any代表只要存在这样的元素，就将列的名称加到包含所有含"?"的的列表中。

随后，对于含"?"的列，我们对"?"求和，得到结果

['Yes']
Yes:  1

第一行输出了所有含”?”的列名，第二行统计了每一个含"?"的列中，"?"的个数。

3.先转化为nan，随后用我们熟悉的isnull处理

先替换

df = pd.DataFrame({'Yes': [50, 21, '?', 70, 21], 'No': [131, 2, 98, 1, 3]})

for column in df.columns:
    df[column].replace('?',np.nan,inplace = True)

然后使用isnull

missing_values_count = df.isnull().sum()  
print(missing_values_count)

结果为

Yes    1
No     0
dtype: int64

21岁害怕编程

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
dataFrame中，若空值已经被标注为了＂unkown＂或＂?＂的处理方法

dataFrame中，若空值已经被标注为了'unkown'或'?'之类的，isnull函数不可行，但是我们可以在读文件时设置，抑或检查 "?" 的存在并统计，还有先转化为nan，随后用我们熟悉的isnull处理。
复制链接

扫一扫

专栏目录