背景
现有一个数据量很大的dataframe(本文中的示例数据为100万行,9列)需要做一些筛选操作。考虑到数据量特别大,不同的方法在性能方面会造成巨大的差异。此次的数据比较特殊,有一个TradingDay
字段,标准格式应该是nchar(8)
,也可以当做8位的数值使用。筛选差异也由他们的数据类型产生。
测试方案
筛选数据由两部分组成,筛选条件与取值方法。
本文使用到的筛选条件有两种:
- 字符串比较
- 数值比较
取值方法有三种:
- loc取值
loc[condition,'column_name']
- 索引取值
['column_name']
- 属性取值
.column_name
测试结果如下:
需要注意的是,如果df['TradingDay']
原本是字符串,通过df['TradingDay'].astype(int)
转成数值,在本文条件下,需要103ms
。因此,如果在数据使用中,存在多次筛选的情况,可以考虑将字段转成数值。若基本不筛选,继续使用字符串筛选也无妨。
结论
- 字符串比较筛选的效率远低于数值比较筛选。究其原因应该是,字符串比较的原理应该是按位逐个比较,本文中的字符串因为是
ncahr(8)
,字符串长度严格相等,所以不会出问题。数值比较相对而言简单快速很多,所以整体效率要高。 - 无论哪种筛选条件方式,
.loc
均比其他两种快。同时,这种方式使用在赋值场景下,能避免产生副本,减少内存与IO的损耗。