pandas筛选时间_pandas之resample踩坑

在使用pandas的resample函数处理时间序列数据时,发现由于函数会自动补全缺失日期并填充0,导致统计结果与预期不符。通过检查,发现原本124天的数据被扩展到306天,影响了日均值的计算。解决方案是在resample之后再进行数据筛选,以排除额外填充的数据。
摘要由CSDN通过智能技术生成

之前pandas小妙招中强烈安利的pandas函数resample最近坑我不浅,记录下来

一言以蔽之:它(nd,脏话)会自动补全中间缺的日期


背景是这样: 我想按下雨工作日和周末,不下雨工作日和周末,统计按15min集计的订单时变量,然后绘制这种时变图

82bbc04b1bd0f745bdcda749a0684bd6.png

于是筛选好四部分数据后,依次放入下面代码所示函数中进行集计

resample_data=order_data.resample('15T',on='start_time').agg({"order_id":'count'})resample_data['start_time_noday'] =resample_data['start_time'].apply(lambda x: x.strftime('%H:%M'))#改变日期格式result=resample_data.groupby(['start_time_noday'],as_index=False).agg({"order_id":'mean'})

这个过程当然很顺利,一切都很平静

但是令我百思不得其解的是为什么这样结果sum算出来的日均使用量比我直接总订单除以天数的结果不仅对不上,而且小很多呢?

以至于我开始在草稿纸上推算小学数学:难道先对每个时间段求平均再求和跟先对每个时间段求和再取平均不一样么。 推算了很多次后,明明一样啊,于是我开始了debug 

发现: 

理想中不下雨是124天,所以每个时间段是124个 

现实中是306个???

1cd5bb140999ad63ae17d865ef701abe.png 难 道计数出错了?  把集计前的数据导出来一看,wc,原来他(nd)把中间缺的日期一个个都给我补全了,楞是给我补了200多天......

•第一种是把4.3,4.5日中间的4.4日这种缺天的补全,订单量跟上0•第二种是把4月,7月中间的5月和6月也都补全,订单量跟上0

0102299d10188168eefadbfaaf7d0e65.png

就这样由124变成了306天,对得上才怪呢

解决方法也很简单: 

resample分组后再筛选数据,这样那些多余的数据就被筛掉了

9d6530875002815ab0572d0fc0be8baa.png
tj大学最优化画展展品-2

推荐阅读

• pandas小妙招• pandas之按类多行合并为一行• pandas使用的100个trick• 一个插件让你告别谷歌学术镜像• 基于conv-lstm方法预测共享单车需求

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值