最近,发现了个pandas十分有用的技巧,尤其是在你内存不足、数据量太大、耗时过长的情况下:
假设df_groupby是我们按照df某个字段进行分组后的结果,我们现在要统计其中某个字段“name”的个数
df_groupby.apply(lambda x: len(x['name']))
df_groupby['name'].count()
如上所示,这俩计数语句都很简单,看起来没差,但在你数据量足够大的情况下,这两句可能就是爆不爆内存的天壤之别了。第一句是常规写法,占内存更大、速度更慢;因而建议第二种