pandas 空字符串与na区别_pandas中对nan空值的判断

pandas基于numpy,所以其中的空值nan和numpy.nan是等价的。numpy中的nan并不是空对象,其实际上是numpy.float64对象,所以我们不能误认为其是空对象,从而用bool(np.nan)去判断是否为空值,这是不对的。

一、怎么判断

对于pandas中的空值,我们该如何判断,并且有哪些我们容易掉进去的陷阱,即不能用怎么样的方式去判断呢?

1、可以判断pandas中单个空值对象的方式:

- 利用pd.isnull(),pd.isna();

- 利用np.isnan();

- 利用is表达式;

- 利用in表达式

- 使用math库的isnan函数

2、不可以用来判断pandas单个空值对象的方式:

- 不可直接用==表达式判断;

- 不可直接用bool表达式判断;

- 不可直接用if语句判断。

3、对于同时多个空值对象的判断和处理:

- 可以用Series对象和DataFrame对象的any()或all()方法;

- 可以用numpy的any()或all()方法;

- 不可以直接用python的内置函数any()和all()方法;

- 可以用Series或DataFrame对象的dropna()方法剔除空值;

- 可以用Series或DataFrame对象的fillna()方法填充空值。

二、示例:

>>> import pandas as pd

>>> import numpy as np

>>> from math import isnan

>>> na=np.nan

>>> # 可以用来判断空值的方式

...

>>> pd.isnull(na)

True

>>> pd.isna(na)

True

>>> np.isnan(na)

True

>>> na is np.nan

True

>>> na in [np.nan]

True

>>> isnan(na)

True

>>> # 可以用来判断非空的方式

>>> pd.notnull(na)

False

>>> pd.notna(na)

False

>>> ~np.isnan(na) # 这种小数据量可以,大数据量就报错https://itdiandi.net/view/2874

False

>>> # 不可以直接用来判断的方式,即以下结果和我们预期不一样

...

>>> na == np.nan

False

>>> bool(na)

True

>>> if na:

... print('na is not null')

...

na is not null

>>> # 不可以直接用python内置函数any和all

...

>>> any([na])

True

>>> all(

Querying for NaN and other names in Pandas

In general, you could use @local_variable_name, so something like

>>> pi = np.pi; nan = np.nan

>>> df = pd.DataFrame({"value": [3,4,9,10,11,np.nan,12]})

>>> df.query("(value < 10) and (value > @pi)")

value

1      4

2      9

would work, but nan isn't equal to itself, so value == NaN will always be false. One way to hack around this is to use that fact, and use value != value as an isnan check. We have

>>> df.query("(value < 10) or (value == @nan)")

value

0      3

1      4

2      9

According to this answer you can use:

df.query('value < 10 | value.isnull()', engine='python')

import pandas as pd

import numpy as np

df = pd.DataFrame({'value': [3, 4, 9, 10, 11, np.nan, 12]})

available = df.query("value.notna()")

print(available)

9

You can use the isna and notna Series methods, which is concise and readable.

import pandas as pd

import numpy as np

df = pd.DataFrame({'value': [3, 4, 9, 10, 11, np.nan, 12]})

available = df.query("value.notna()")

print(available)

#    value

# 0    3.0

# 1    4.0

# 2    9.0

# 3   10.0

# 4   11.0

# 6   12.0

not_available = df.query("value.isna()")

print(not_available)

#    value

# 5    NaN

Alternatively, you can use the toplevel pd.isna function, by referencing it as a local variable.

import pandas as pd

import numpy as np

df = pd.DataFrame({'value': [3, 4, 9, 10, 11, np.nan, 12]})

df.query("@pd.isna(value)")

#    value

# 5    NaN

https://stackoverflow.com/questions/26535563/querying-for-nan-and-other-names-in-pandas

三、总结

numpy.nan是一个numpy.float64的非空对象,所以不能直接用bool表达式去判断,故一切依赖于布尔表达式的判断方式都不行,比如if语句。对于pandas中空值的判断,我们只能通过pandas或者numpy的函数和is表达式去判断,不能用python的内置函数any或all判断。

比较奇怪的一点是pandas中空值的判断可以用is表达式判断,但是不能用==表达式判断。我们知道,对于is表达式,如果返回True,表示这两个引用指向的是同一个内存对象,即内存地址是一样的,一般同一个对象的不同引用的值也应该是相等的,所以一般is表达式为True,那么==表达式也为True。但是对于numpy.nan对象显然不是这样的,因为其可以用is表达式判断,即当is表达式为True时,但==表达式为False,这说明虽然不同numpy.nan变量引用指向的是同一个内存地址,但是其具有自己的值属性,值是不一样的,所以不能用==来判断,这点需要注意。

  • 2
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值