Python有个处理大数据的库,结合xlrd库,在做一些大数据的处理统计工作的时候很好用,譬如做性能测试,你的结果数据如何统计,python有个库pandas,这个就很擅长做这个工作,这里就讲2个pandas的骚操作。 pandas中groupby、Grouper和agg函数的使用。这2个函数作用类似,都是对数据集中的一类属性进行聚合操作,比如统计一个用户在每个月内的全部花销,统计某个属性的最大、最小、累和、平均等数值。
统计“ext price”这个属性在每个月的累和(sum)值
import pandas as pdimport collectionsdf = pd.read_excel("D:/Download/chrome/sample-salesv3.xlsx")#print (df.head(10))df["date"] = pd.to_datetime(df["date"])# print (df.head(10))df1 = df.set_index("date").resample("M")['ext price'].sum()# print(df1.head())
统计每个用户每个月"ext price"这个属性的sum值,利用Grouper
df2 = df.groupby(["name