【问题解决】pandas读取excel统计空值数量错误

想当运维的程序猿

于 2023-04-05 22:53:26 发布

阅读量627

点赞数

文章标签： pandas excel python

本文链接：https://blog.csdn.net/qq_33218097/article/details/129978507

版权

文章讨论了在使用pandas的pd.read_excel读取Excel数据后，利用pd.isnull().sum()统计空值时出现错误的情况。问题在于空格被转换为字符串和nan字符串，这些不会被pd.isnull()识别为NaN。解决方案是将和nan替换为np.nan，以便正确统计空值。经过修改的代码能正确统计到B列中的空值数量。

摘要由CSDN通过智能技术生成

问题： pd.read_excel()读取excel数据后，用pd.isnull().sum()统计空值数量不对，代码如下

import pandas as pd

df = pd.read_excel('test.xlsx',dtype=str)
# 剔除空格
df = df.applymap(lambda x : str(x).strip())
print("b列为空的个数为"+ str(pd.isnull(df['b']).sum())) # 打印出来b列中为空的是0个

excel数据长这样，B2是一个空格，希望得到空值为2的结果
在这里插入图片描述
问题分析：

读取excel后的df是这样

使用applymap剔除空格后的df是这样
读取excel后的df的值（df.values）

使用applymap剔除空格后的df的值（df.values）

可以看到，在applymap方法处理后
值values的变化：一个空格变成了’’，之前的nan变成了’nan’（这里是字符串nan，当然不为空）

pd.isnull()只会统计NaN的数量，一个是字符串’‘，一个是字符串’nan’，因此都统计不到
解决： 将’'和’nan’全部替换为np.nan，isnull就可以统计到

import numpy as np
import pandas as pd

df = pd.read_excel('test.xlsx',dtype=str)
# 剔除空格
df = df.applymap(lambda x : str(x).strip())
df[df == ''] = np.nan
df[df == 'nan'] = np.nan
print("b列为空的个数为"+ str(pd.isnull(df['b']).sum())) # 打印出来b列中为空的是2个