【问题解决】pandas读取excel统计空值数量错误

文章讨论了在使用pandas的pd.read_excel读取Excel数据后,利用pd.isnull().sum()统计空值时出现错误的情况。问题在于空格被转换为字符串和nan字符串,这些不会被pd.isnull()识别为NaN。解决方案是将和nan替换为np.nan,以便正确统计空值。经过修改的代码能正确统计到B列中的空值数量。
摘要由CSDN通过智能技术生成

问题: pd.read_excel()读取excel数据后,用pd.isnull().sum()统计空值数量不对,代码如下

import pandas as pd

df = pd.read_excel('test.xlsx',dtype=str)
# 剔除空格
df = df.applymap(lambda x : str(x).strip())
print("b列为空的个数为"+ str(pd.isnull(df['b']).sum())) # 打印出来b列中为空的是0个

excel数据长这样,B2是一个空格,希望得到空值为2的结果
在这里插入图片描述
问题分析:

  1. 读取excel后的df是这样
    在这里插入图片描述
    使用applymap剔除空格后的df是这样
    在这里插入图片描述
  2. 读取excel后的df的值(df.values)
    在这里插入图片描述
    使用applymap剔除空格后的df的值(df.values)
    在这里插入图片描述

可以看到,在applymap方法处理后
值values的变化:一个空格变成了’’,之前的nan变成了’nan’(这里是字符串nan,当然不为空)

pd.isnull()只会统计NaN的数量,一个是字符串’‘,一个是字符串’nan’,因此都统计不到
解决: 将’'和’nan’全部替换为np.nan,isnull就可以统计到

import numpy as np
import pandas as pd

df = pd.read_excel('test.xlsx',dtype=str)
# 剔除空格
df = df.applymap(lambda x : str(x).strip())
df[df == ''] = np.nan
df[df == 'nan'] = np.nan
print("b列为空的个数为"+ str(pd.isnull(df['b']).sum())) # 打印出来b列中为空的是2个
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值