我目前正在格式化来自两个不同数据集的数据.
其中一个数据集反映了按小时计算人数的观察数,第二个是基于5分钟间隔生成的wifi日志的人数.
将这两个数据帧合并为一个之后,我遇到的问题是每小时(“10:00:00”)有原始数据集,但其他数据(每5分钟像“10:47:14”)不包括此数据.
以下是合并数据框的外观:
room time con auth capacity % Count module size
0 B002 Mon Nov 02 10:32:06 23 23 90 NaN NaN NaN NaN`
1 B002 Mon Nov 02 10:37:10 25 25 90 NaN NaN NaN NaN`
12527 B002 Mon Nov 02 10:00:00 NaN NaN 90 50% 45.0 COMP30520 60`
12528 B002 Mon Nov 02 11:00:00 NaN NaN 90 0% 0.0 COMP30520 60`
有没有办法让我通过数据框并从11:00:00找到有关“占用”,“占用”,“模块”和“大小”的所有信息,并将其写入所有的单元格中.同一天,小时在10:00:00到10:59:59之间?
这将允许我获得每行的所有信息,然后允许我根据’day’和’hour’收集min(),max()和median().
要回答原始数据框的评论,这里有:
第一个数据帧:
time room module size
0 Mon Nov 02 09:00:00 B002 COMP30190 29
1 Mon Nov 02 10:00:00 B002 COMP40660 53
第二个数据帧:
room time con auth capacity % Count
0 B002 Mon Nov 02 20:32:06 0 0 NaN NaN NaN
1 B002 Mon Nov 02 20:37:10 0 0 NaN NaN NaN
2 B002 Mon Nov 02 20:42:12 0 0 NaN NaN NaN
12797 B008 Wed Nov 11 13:00:00 NaN NaN 40 25 10.0
12798 B008 Wed Nov 11 14:00:00 NaN NaN 40 50 20.0
12799 B008 Wed Nov 11 15:00:00 NaN NaN 40 25 10.0
这就是将这两个数据帧合并在一起的方式:
DFinal = pd.merge(DF, d3, left_on=["room", "time"], right_on=["room", "time"], how="outer", left_index=False, right_index=False)
任何有关这方面的帮助将不胜感激.
非常感谢,
-Romain