吐槽--pandas模块!!

有时候用别人模块还挺糟心的,作为主流的数据分析模块,pandas就有点让人捉摸不透的行为

似乎是因为异常处理的一些不完备性导致的。

代码如下, 其中的data_frame就是pandas.DataFrame对象

self.data_frame[field_name] = self.data_frame[field_name].dropna()
# 或者: self.data_frame[field_name].dropna(inplace=True)

直观上看,这句代码应该会将self.data_frame中field_name字段中的nan值去除掉, 事实上,如果

self.data_frame中field_name字段真的有nan值,这段代码对self.data_frame本身不会有任何反应。这是由于这样的直接赋值语句有一个前提条件,就是赋值的pandas.Series对象的长度必须和pandas.DataFrame对象的行数一致;但是,这样一段代码运行居然不会报错!!! 显然pandas内部直接吞噬处理了这个错误,这导致初次接触者深感疑惑; 后面发现: 

self.data_frame.dropna(subset=[field_name], inplace=True)

这样的代码却能凑效。通过打印才发现,下面的代码会将data_frame中field_name中存在nan值的行直接舍去;这和直接赋值的行为是不同的。
简单总结:对pandas.DataFrame某一列直接赋值是不会舍去行的! 而且报错也不会显示出来!
 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值