pandas模块给数据处理的能力给予了很大的助力,但是初学者刚开始可能会被其中分组聚合的三个方法(apply,agg和transform),弄的头晕眼花,至少我自己学习的过程中是这样的,看了网上的很多解释,觉得对于初学者理解起来还是蛮困难的,翻阅了好几本python数据分析的书籍,自己总算理解了个大概,在这里给大家讲一下这三个方法。
具体请看《Python数据科学手册》(Jake Vanderplas著)的146页哈,另外这本书强烈推荐,看过Wes McKinney著的《利用Python进行数据分析》,再看这本书,很多概念会有一种恍然大悟的感觉。
简单的说,agg,transform和apply三个方法的输入对象,都是分组后的DataFrame/Series,区别在于,他们的输出类型不一样,agg输出的是缩减后的标量(或者标量列表);transform输出的是原输入的DataFrame大小的,但是数据元素经过了转换的DataFrame;apply就很灵活了,它既可以是缩减后的标量,也可以是pandas对象(注意这里是pandas对象哦,并不仅仅是DataFrame哦)。
下面我来用一个例子解释:
#创建一个DataFrame
import pandas as pd
import numpy as np
rng=np.random.RandomState(0)
df=pd.DataFrame({'key':list('ABCABC'),'data1':range(6),'data2':rng.randint(0,10,6)})
#输出的结果是