pandas的fillna函数影响性能，不要轻易使用

最新推荐文章于 2024-06-20 16:14:03 发布

bluelightning99

最新推荐文章于 2024-06-20 16:14:03 发布

阅读量1.1k

点赞数

分类专栏： python 文章标签： python

本文链接：https://blog.csdn.net/u011195887/article/details/106161594

版权

python 专栏收录该内容

5 篇文章 0 订阅

订阅专栏

fillna搜索整个DataFrame，把nan值替换为指定的值，速度很慢，影响处理脚本性能。我们的数据处理脚本，fillna一行代码，占了21.8%的处理时间。为了避免不必要的nan填充。我们修改了处理策略，在read_csv中增加了1个参数keep_default_na，设置该参数为Flase（将这个参数设为False之后同时不定义na_values参数，就可以在读取文件时不将任何值转换为缺失值NaN），对缺失值不填充为nan，再加上其它的调整，处理脚本性能提升了1倍：

df_data = pd.read_csv(file_name, dtype=self.dtypes, encoding="GB2312", keep_default_na=False)  # 不转换任何值为NaN

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

bluelightning99

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
pandas的fillna函数影响性能，不要轻易使用

fillna搜索整个DataFrame，把nan值替换为指定的值，速度很慢，影响处理脚本性能。我们的数据处理脚本，fillna一行代码，占了21.8%的处理时间。为了避免不必要的nan填充。我们修改了处理策略，在read_csv中增加了1个参数keep_default_na，设置该参数为Flase（将这个参数设为False之后同时不定义na_values参数，就可以在读取文件时不将任何值转换为缺失值NaN），对缺失值不填充为nan，再加上其它的调整，处理脚本性能提升了1倍：df_data = pd.rea
复制链接

扫一扫