为什么不能用in成员运算符判断pandas数据中的缺失值?

92 篇文章 10 订阅
62 篇文章 5 订阅

       in成员运算符是用来判断一个值是否在某一个可迭代对象中的,比如 x in y这个语句,如果x在y中,则返回True,不然返回False。一般情况下,这样判断并不会有什么问题,但是如果是 np.nan in s这样的语句,其中s表示一个pandas中的Series对象,就行不通了,这是为什么呢?原因是numpy中的nan常量和pandas中的空值是不兼容的,其两者是两种不同的数据类型,numpy中的nan的类型是float,而如果我们是以np.nan来构造pandas中的空值的话,则后者的空值类型是numpy.float64。两者对象并不兼容,从而自然通过in成员运算符是无法做出正确有效的判断的,具体看图一的例子。

(图一)

       因此,当我们判断pandas数据中的缺失值的时候,不能用in来判断,以防判断错误。一般的,判断pandas数据的缺失值,可以通过isna()或isnull()方法结合Series的any()或者all()方法来判断。对于一个Series,其isna()或isnull()方法会返回一个bool值组成的Series对象,然后再调用Series的any()或all()方法,其中any()方法的意思是,如果这个bool值组成的Series中有True,则返回True,不然返回False,all()方法的意思是,若全部都是True,则返回True,不然返回False。

       注意,我们通过会通过np.nan来作为空值的填充,并且pandas中的空值nan也是一个对象,如果直接用any()或all()方法判断也是不行的,因为nan是一个非空对象,因此其在any()或all()的判断下是True的,因此不可直接用这两个方法判断,而是先要通过isna()或isnull(),因为isna()和isnull()这两个方法和numpy以及pandas中的nan都是兼容的,可以正确判断,所以应该先通过这两个方法判断,返回由bool值组成的数据对象后再做相应的其他处理。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值