以下列代码为例:
import numpy as np import pandas as pd import pandas as pd df = pd.DataFrame({'key1':list('aaaab'), 'key2': ['one','two','one','two','one'], 'data1': np.random.randn(5), 'data2': np.random.randn(5)}) print df print "%%%%%" print df.groupby('key1') print "%%%%%" print df.groupby('key1').agg('sum')
得到df如下:
df为pd中的dataframe,groupby(‘列名’),相当于以这一列进行预分类。打印结果为:然后agg()是对上面内容的操作。这里是sum,所以累加:PS:试图只选取data1这一列进行计算,从而写了个df['data1'],不行。这样做只单单选中了data1这一列!PS:df['data1']是series类型,df[['data1']]是dataframe类型