有1年12个月每天24个点的数据,想按累积面积算月平均(想象每个月的数据点对应一条折线图,实际是想求这个折线图与坐标轴形成的梯形面积累计值除以时间的平均值)。
读Excel直接得到一个dataframe,按月进行分组,每个组分别调用自定义的函数求平均值。
中间调用自定义函数循环处理分组dataframe的时候报错,debug才发现:
dataframe用groupby分组以后,可以分别读取每一块,但其中数据的索引还是按原始dataframe来编号的。比如原始dataframe每一列有10个数据,索引编号是0-9,按某一列分组后分为2组,读取第2块,数据的索引编号是从5开始,不是从0开始。
df = pd.read_excel('D:/2018-washed2.xlsx')
#时间从 年-月-日 时:分:秒 处理为 年-月
df['时间']=df['时间'].apply(lambda x:datetime.strftime(x,'%Y-%m'))
df.drop(['Unnamed: 0'], axis=1, inplace=True)