Python-Pandas关于时间格式数据的保留位数操作

有时候,我们读取的数据中,有时间格式的数据,比如:2020-04-22T16:13:22.000000

但是我们可能需要做分组处理,比如:df.groupby,按照日期或者小时做分组,那要怎么做呢?

可以这样:

df.groupby(df['datetime'].dt.hour).agg({'userid': 'nunique'})

上面就是把数据按照小时分组,统计每个小时的用户数量。

打印结果:

          userid
datetime        
0            498
1            511
2            599
3            726
4            714
5            842
6           1034
7           1105
8           1130
9           1213
10          1147
11           959
12           654
13           401
14           274
15           167
16           146
17           155
18           204
19           252
20           336
21           402
22           442
23           458

还有一个方法,我们可以做一个临时的列:

# 先对时间精确到小时
dft['datetime_hour'] = dft['datetime'].dt.floor('H')  
# 然后直接以这个时间做分组,结果是一样的,这个的好处是多了日期,
# 如果我们的数据中存在多天的数据,如果仅仅按照上面的方式做,那就
# 没法区分两天的不同时间段的用户数了。
dft = dft.groupby('datetime_hour').agg({'userid': 'nunique'}) 

print(dft)

得到的结果:

                     userid
datetime_hour              
2020-03-24 00:00:00     498
2020-03-24 01:00:00     511
2020-03-24 02:00:00     599
2020-03-24 03:00:00     726
2020-03-24 04:00:00     714
2020-03-24 05:00:00     842
2020-03-24 06:00:00    1034
2020-03-24 07:00:00    1105
2020-03-24 08:00:00    1130
2020-03-24 09:00:00    1213
2020-03-24 10:00:00    1147
2020-03-24 11:00:00     959
2020-03-24 12:00:00     654
2020-03-24 13:00:00     401
2020-03-24 14:00:00     274
2020-03-24 15:00:00     167
2020-03-24 16:00:00     146
2020-03-24 17:00:00     155
2020-03-24 18:00:00     204
2020-03-24 19:00:00     252
2020-03-24 20:00:00     336
2020-03-24 21:00:00     402
2020-03-24 22:00:00     442
2020-03-24 23:00:00     458

这个就看具体需求了,后面这种的优点我也说明了。

另外,关于精确到时间的某个位数的,还有更多设置,如:

# 对于时间格式的值,如果想只取日期的或者到小时的数据,可以这样做
row_index = 45000 # 这里我直接打印第 45000 行的数据用来显示区别
print('原本的值:', df['datetime'].values[row_index])
print('向下取整到秒:', df['datetime'].dt.floor('S').values[row_index])
print('向下取整到分:', df['datetime'].dt.floor('min').values[row_index])
print('向下取整到时:', df['datetime'].dt.floor('H').values[row_index])
print('向下取整到日:', df['datetime'].dt.floor('D').values[row_index])
print('')
print('向上取整到秒:', df['datetime'].dt.ceil('S').values[row_index])
print('向上取整到分:', df['datetime'].dt.ceil('min').values[row_index])
print('向上取整到时:', df['datetime'].dt.ceil('H').values[row_index])
print('向上取整到日:', df['datetime'].dt.ceil('D').values[row_index])
print('')
print('四舍五入到秒:', df['datetime'].dt.round('S').values[row_index])
print('四舍五入到分:', df['datetime'].dt.round('min').values[row_index])
print('四舍五入到时:', df['datetime'].dt.round('H').values[row_index])
print('四舍五入到日:', df['datetime'].dt.round('D').values[row_index])

其实和取整是一个道理,也有四舍五入。

上面的打印结果是:

原本的值: 2020-03-24T21:03:42.659895000
向下取整到秒: 2020-03-24T21:03:42.000000000
向下取整到分: 2020-03-24T21:03:00.000000000
向下取整到时: 2020-03-24T21:00:00.000000000
向下取整到日: 2020-03-24T00:00:00.000000000

向上取整到秒: 2020-03-24T21:03:43.000000000
向上取整到分: 2020-03-24T21:04:00.000000000
向上取整到时: 2020-03-24T22:00:00.000000000
向上取整到日: 2020-03-25T00:00:00.000000000

四舍五入到秒: 2020-03-24T21:03:43.000000000
四舍五入到分: 2020-03-24T21:04:00.000000000
四舍五入到时: 2020-03-24T21:00:00.000000000
四舍五入到日: 2020-03-25T00:00:00.000000000

好像最多就到日了,没找到月。。

 

额外:

有时候我们要对日期做加减法,比如上面的datetime,我们希望他们都增加一天,或者增加一个小时,可以这么做:

# 将日期列的数据增加或减少时间
print('')
print('原本的值:', df['datetime'].values[row_index])
df['next_day_date'] = df['datetime'] + pd.Timedelta(days=1) # 增加一天
df['last_day_date'] = df['datetime'] - pd.Timedelta(days=1) # 减少一天
print('明天的日期:', df['next_day_date'].values[row_index])
print('昨天的日期:', df['last_day_date'].values[row_index])

print('')
print('原本的值:', df['datetime'].values[row_index])
df['next_hour_date'] = df['datetime'] + pd.Timedelta(hours=1) # 增加一个小时
df['last_hour_date'] = df['datetime'] - pd.Timedelta(hours=1) # 减少一个小时
print('下一个小时的日期:', df['next_hour_date'].values[row_index])
print('上一个小时的日期:', df['last_hour_date'].values[row_index])

结果如下:

原本的值: 2020-03-24T21:03:42.659895000
明天的日期: 2020-03-25T21:03:42.659895000
昨天的日期: 2020-03-23T21:03:42.659895000

原本的值: 2020-03-24T21:03:42.659895000
下一个小时的日期: 2020-03-24T22:03:42.659895000
上一个小时的日期: 2020-03-24T20:03:42.659895000

月分秒,也都是类似的做法~

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

苏小败在路上

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值