在理解如何将数据重新采样为小时速率而不是现在的4小时数据块时,仍被困在一项任务上。这是我们要求做的。在
差异
ENTRIES和EXITS字段保存每周不重置为零的原始计数。我们想知道4小时内有多少出入口。要计算这个值,我们需要计算具有相同(UNIT,C/A,SCP)键的相邻行之间的差异。创建存储这些数字的NUM_ENTRIES和NUM_EXITS列。在
提示:
移位法很有用。
在进行转换时使用groupby会更容易,因为它会尊重子单元之间的边界。level参数将帮助定义子单元。
大多数计数器都是递增的,但也有一些是倒计时的。你应该如何处理这些案件?把这个修好以获得额外的学分。在
前一个问题中的数字有一个问题是,它们是在不同的时间采样的。将ENTRIES和EXITS列重新采样为每小时的速率,并对其进行插值以填充缺失的值。使用“pchip”插值方法,因为它将保持单调性。同样,这应该使用groupby分组完成,但是apply函数允许使用任意插值方法。现在,重新计算第2部分中的NUM_ENTRIES和NUM_EXITS列。
提示:
使用reset_index清除索引的UNIT、C/A和SCP级别,因为这使apply函数中使用的重采样和插值方法更加简单。通过set U index执行插值后,将索引添加回。在
这是代码,我有它被要求重采样的部分df = pd.read_csv("turnstile_161126.txt")
timestamp =pd.to_datetime(df['DATE'] + ' ' + df['TIME'])
df.insert(3