[pandas学习笔记] - 不同数据类型筛选方式的性能比较

8 篇文章 0 订阅
4 篇文章 0 订阅

背景

现有一个数据量很大的dataframe(本文中的示例数据为100万行,9列)需要做一些筛选操作。考虑到数据量特别大,不同的方法在性能方面会造成巨大的差异。此次的数据比较特殊,有一个TradingDay字段,标准格式应该是nchar(8),也可以当做8位的数值使用。筛选差异也由他们的数据类型产生。

测试方案

筛选数据由两部分组成,筛选条件与取值方法。
本文使用到的筛选条件有两种:

  1. 字符串比较
  2. 数值比较

取值方法有三种:

  1. loc取值loc[condition,'column_name']
  2. 索引取值['column_name']
  3. 属性取值.column_name

测试结果如下:
在这里插入图片描述
需要注意的是,如果df['TradingDay']原本是字符串,通过df['TradingDay'].astype(int)转成数值,在本文条件下,需要103ms。因此,如果在数据使用中,存在多次筛选的情况,可以考虑将字段转成数值。若基本不筛选,继续使用字符串筛选也无妨。

结论

  • 字符串比较筛选的效率远低于数值比较筛选。究其原因应该是,字符串比较的原理应该是按位逐个比较,本文中的字符串因为是ncahr(8),字符串长度严格相等,所以不会出问题。数值比较相对而言简单快速很多,所以整体效率要高。
  • 无论哪种筛选条件方式,.loc均比其他两种快。同时,这种方式使用在赋值场景下,能避免产生副本,减少内存与IO的损耗。
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值