有时候用别人模块还挺糟心的,作为主流的数据分析模块,pandas就有点让人捉摸不透的行为
似乎是因为异常处理的一些不完备性导致的。
代码如下, 其中的data_frame就是pandas.DataFrame对象
self.data_frame[field_name] = self.data_frame[field_name].dropna()
# 或者: self.data_frame[field_name].dropna(inplace=True)
直观上看,这句代码应该会将self.data_frame中field_name字段中的nan值去除掉, 事实上,如果
self.data_frame中field_name字段真的有nan值,这段代码对self.data_frame本身不会有任何反应。这是由于这样的直接赋值语句有一个前提条件,就是赋值的pandas.Series对象的长度必须和pandas.DataFrame对象的行数一致;但是,这样一段代码运行居然不会报错!!! 显然pandas内部直接吞噬处理了这个错误,这导致初次接触者深感疑惑; 后面发现:
self.data_frame.dropna(subset=[field_name], inplace=True)
这样的代码却能凑效。通过打印才发现,下面的代码会将data_frame中field_name中存在nan值的行直接舍去;这和直接赋值的行为是不同的。
简单总结:对pandas.DataFrame某一列直接赋值是不会舍去行的! 而且报错也不会显示出来!