针对时序数据按不同时间粒度统计时,如果粒度比较小比如15min会存在统计值为0,而pandas返回的dataframe默认只显示结果为非0的记录,例如下面的例子,统计门架的15min总流量和货车流量:
门架名称,时间,总流量,货车流量
XXXX,2023-01-15 00:00:00,1,0
XXXX,2023-01-15 00:30:00,1,0
中间的2023-01-15 00:15:00 总流量和货车流量都为0,那么df就默认不显示。
我们想要的结果是:
门架名称,时间,总流量,货车流量
XXXX,2023-01-15 00:00:00,1,0
XXXX,2023-01-15 00:15:00,0,0
XXXX,2023-01-15 00:30:00,1,0
如果此时需要填充,可以使用.unstack(fill_value=0).stack(),例如:
menjia=dataall.groupby(['门架名称',dataall['时间'].dt.floor('15Min')]).
agg(总流量=('车型','size'),货车流量=('车型',lambda x:len(x.loc[x=='货
车']))).unstack(fill_value=0).stack().reset_index()