有时候,我们读取的数据中,有时间格式的数据,比如:2020-04-22T16:13:22.000000
但是我们可能需要做分组处理,比如:df.groupby,按照日期或者小时做分组,那要怎么做呢?
可以这样:
df.groupby(df['datetime'].dt.hour).agg({'userid': 'nunique'})
上面就是把数据按照小时分组,统计每个小时的用户数量。
打印结果:
userid
datetime
0 498
1 511
2 599
3 726
4 714
5 842
6 1034
7 1105
8 1130
9 1213
10 1147
11 959
12 654
13 401
14 274
15 167
16 146
17 155
18 204
19 252
20 336
21 402
22 442
23 458
还有一个方法,我们可以做一个临时的列:
# 先对时间精确到小时
dft['datetime_hour'] = dft['datetime'].dt.floor('H')
# 然后直接以这个时间做分组,结果是一样的,这个的好处是多了日期,
# 如果我们的数据中存在多天的数据,如果仅仅按照上面的方式做,那就
# 没法区分两天的不同时间段的用户数了。
dft = dft.groupby('datetime_hour').agg({'userid': 'nunique'})
print(dft)
得到的结果:
userid
datetime_hour
2020-03-24 00:00:00 498
2020-03-24 01:00:00 511
2020-03-24 02:00:00 599
2020-03-24 03:00:00 726
2020-03-24 04:00:00 714
2020-03-24 05:00:00 842
2020-03-24 06:00:00 1034
2020-03-24 07:00:00 1105
2020-03-24 08:00:00 1130
2020-03-24 09:00:00 1213
2020-03-24 10:00:00 1147
2020-03-24 11:00:00 959
2020-03-24 12:00:00 654
2020-03-24 13:00:00 401
2020-03-24 14:00:00 274
2020-03-24 15:00:00 167
2020-03-24 16:00:00 146
2020-03-24 17:00:00 155
2020-03-24 18:00:00 204
2020-03-24 19:00:00 252
2020-03-24 20:00:00 336
2020-03-24 21:00:00 402
2020-03-24 22:00:00 442
2020-03-24 23:00:00 458
这个就看具体需求了,后面这种的优点我也说明了。
另外,关于精确到时间的某个位数的,还有更多设置,如:
# 对于时间格式的值,如果想只取日期的或者到小时的数据,可以这样做
row_index = 45000 # 这里我直接打印第 45000 行的数据用来显示区别
print('原本的值:', df['datetime'].values[row_index])
print('向下取整到秒:', df['datetime'].dt.floor('S').values[row_index])
print('向下取整到分:', df['datetime'].dt.floor('min').values[row_index])
print('向下取整到时:', df['datetime'].dt.floor('H').values[row_index])
print('向下取整到日:', df['datetime'].dt.floor('D').values[row_index])
print('')
print('向上取整到秒:', df['datetime'].dt.ceil('S').values[row_index])
print('向上取整到分:', df['datetime'].dt.ceil('min').values[row_index])
print('向上取整到时:', df['datetime'].dt.ceil('H').values[row_index])
print('向上取整到日:', df['datetime'].dt.ceil('D').values[row_index])
print('')
print('四舍五入到秒:', df['datetime'].dt.round('S').values[row_index])
print('四舍五入到分:', df['datetime'].dt.round('min').values[row_index])
print('四舍五入到时:', df['datetime'].dt.round('H').values[row_index])
print('四舍五入到日:', df['datetime'].dt.round('D').values[row_index])
其实和取整是一个道理,也有四舍五入。
上面的打印结果是:
原本的值: 2020-03-24T21:03:42.659895000
向下取整到秒: 2020-03-24T21:03:42.000000000
向下取整到分: 2020-03-24T21:03:00.000000000
向下取整到时: 2020-03-24T21:00:00.000000000
向下取整到日: 2020-03-24T00:00:00.000000000
向上取整到秒: 2020-03-24T21:03:43.000000000
向上取整到分: 2020-03-24T21:04:00.000000000
向上取整到时: 2020-03-24T22:00:00.000000000
向上取整到日: 2020-03-25T00:00:00.000000000
四舍五入到秒: 2020-03-24T21:03:43.000000000
四舍五入到分: 2020-03-24T21:04:00.000000000
四舍五入到时: 2020-03-24T21:00:00.000000000
四舍五入到日: 2020-03-25T00:00:00.000000000
好像最多就到日了,没找到月。。
额外:
有时候我们要对日期做加减法,比如上面的datetime,我们希望他们都增加一天,或者增加一个小时,可以这么做:
# 将日期列的数据增加或减少时间
print('')
print('原本的值:', df['datetime'].values[row_index])
df['next_day_date'] = df['datetime'] + pd.Timedelta(days=1) # 增加一天
df['last_day_date'] = df['datetime'] - pd.Timedelta(days=1) # 减少一天
print('明天的日期:', df['next_day_date'].values[row_index])
print('昨天的日期:', df['last_day_date'].values[row_index])
print('')
print('原本的值:', df['datetime'].values[row_index])
df['next_hour_date'] = df['datetime'] + pd.Timedelta(hours=1) # 增加一个小时
df['last_hour_date'] = df['datetime'] - pd.Timedelta(hours=1) # 减少一个小时
print('下一个小时的日期:', df['next_hour_date'].values[row_index])
print('上一个小时的日期:', df['last_hour_date'].values[row_index])
结果如下:
原本的值: 2020-03-24T21:03:42.659895000
明天的日期: 2020-03-25T21:03:42.659895000
昨天的日期: 2020-03-23T21:03:42.659895000
原本的值: 2020-03-24T21:03:42.659895000
下一个小时的日期: 2020-03-24T22:03:42.659895000
上一个小时的日期: 2020-03-24T20:03:42.659895000
月分秒,也都是类似的做法~