Python-Pandas关于时间格式数据的保留位数操作

最新推荐文章于 2024-11-05 16:52:32 发布

苏小败在路上

最新推荐文章于 2024-11-05 16:52:32 发布

阅读量5.4k

点赞数 5

分类专栏： Python Pandas 文章标签： python

本文链接：https://blog.csdn.net/pz789as/article/details/105684981

版权

Python 同时被 2 个专栏收录

39 篇文章

订阅专栏

Pandas

18 篇文章

订阅专栏

有时候，我们读取的数据中，有时间格式的数据，比如：2020-04-22T16:13:22.000000

但是我们可能需要做分组处理，比如：df.groupby，按照日期或者小时做分组，那要怎么做呢？

可以这样：

df.groupby(df['datetime'].dt.hour).agg({'userid': 'nunique'})

上面就是把数据按照小时分组，统计每个小时的用户数量。

打印结果：

          userid
datetime        
0            498
1            511
2            599
3            726
4            714
5            842
6           1034
7           1105
8           1130
9           1213
10          1147
11           959
12           654
13           401
14           274
15           167
16           146
17           155
18           204
19           252
20           336
21           402
22           442
23           458

还有一个方法，我们可以做一个临时的列：

# 先对时间精确到小时
dft['datetime_hour'] = dft['datetime'].dt.floor('H')  
# 然后直接以这个时间做分组，结果是一样的，这个的好处是多了日期，
# 如果我们的数据中存在多天的数据，如果仅仅按照上面的方式做，那就
# 没法区分两天的不同时间段的用户数了。
dft = dft.groupby('datetime_hour').agg({'userid': 'nunique'}) 

print(dft)

得到的结果：

                     userid
datetime_hour              
2020-03-24 00:00:00     498
2020-03-24 01:00:00     511
2020-03-24 02:00:00     599
2020-03-24 03:00:00     726
2020-03-24 04:00:00     714
2020-03-24 05:00:00     842
2020-03-24 06:00:00    1034
2020-03-24 07:00:00    1105
2020-03-24 08:00:00    1130
2020-03-24 09:00:00    1213
2020-03-24 10:00:00    1147
2020-03-24 11:00:00     959
2020-03-24 12:00:00     654
2020-03-24 13:00:00     401
2020-03-24 14:00:00     274
2020-03-24 15:00:00     167
2020-03-24 16:00:00     146
2020-03-24 17:00:00     155
2020-03-24 18:00:00     204
2020-03-24 19:00:00     252
2020-03-24 20:00:00     336
2020-03-24 21:00:00     402
2020-03-24 22:00:00     442
2020-03-24 23:00:00     458

这个就看具体需求了，后面这种的优点我也说明了。

另外，关于精确到时间的某个位数的，还有更多设置，如：

# 对于时间格式的值，如果想只取日期的或者到小时的数据，可以这样做
row_index = 45000 # 这里我直接打印第 45000 行的数据用来显示区别
print('原本的值：', df['datetime'].values[row_index])
print('向下取整到秒：', df['datetime'].dt.floor('S').values[row_index])
print('向下取整到分：', df['datetime'].dt.floor('min').values[row_index])
print('向下取整到时：', df['datetime'].dt.floor('H').values[row_index])
print('向下取整到日：', df['datetime'].dt.floor('D').values[row_index])
print('')
print('向上取整到秒：', df['datetime'].dt.ceil('S').values[row_index])
print('向上取整到分：', df['datetime'].dt.ceil('min').values[row_index])
print('向上取整到时：', df['datetime'].dt.ceil('H').values[row_index])
print('向上取整到日：', df['datetime'].dt.ceil('D').values[row_index])
print('')
print('四舍五入到秒：', df['datetime'].dt.round('S').values[row_index])
print('四舍五入到分：', df['datetime'].dt.round('min').values[row_index])
print('四舍五入到时：', df['datetime'].dt.round('H').values[row_index])
print('四舍五入到日：', df['datetime'].dt.round('D').values[row_index])

其实和取整是一个道理，也有四舍五入。

上面的打印结果是：

原本的值： 2020-03-24T21:03:42.659895000
向下取整到秒： 2020-03-24T21:03:42.000000000
向下取整到分： 2020-03-24T21:03:00.000000000
向下取整到时： 2020-03-24T21:00:00.000000000
向下取整到日： 2020-03-24T00:00:00.000000000

向上取整到秒： 2020-03-24T21:03:43.000000000
向上取整到分： 2020-03-24T21:04:00.000000000
向上取整到时： 2020-03-24T22:00:00.000000000
向上取整到日： 2020-03-25T00:00:00.000000000

四舍五入到秒： 2020-03-24T21:03:43.000000000
四舍五入到分： 2020-03-24T21:04:00.000000000
四舍五入到时： 2020-03-24T21:00:00.000000000
四舍五入到日： 2020-03-25T00:00:00.000000000

好像最多就到日了，没找到月。。

额外：

有时候我们要对日期做加减法，比如上面的datetime，我们希望他们都增加一天，或者增加一个小时，可以这么做：

# 将日期列的数据增加或减少时间
print('')
print('原本的值：', df['datetime'].values[row_index])
df['next_day_date'] = df['datetime'] + pd.Timedelta(days=1) # 增加一天
df['last_day_date'] = df['datetime'] - pd.Timedelta(days=1) # 减少一天
print('明天的日期：', df['next_day_date'].values[row_index])
print('昨天的日期：', df['last_day_date'].values[row_index])

print('')
print('原本的值：', df['datetime'].values[row_index])
df['next_hour_date'] = df['datetime'] + pd.Timedelta(hours=1) # 增加一个小时
df['last_hour_date'] = df['datetime'] - pd.Timedelta(hours=1) # 减少一个小时
print('下一个小时的日期：', df['next_hour_date'].values[row_index])
print('上一个小时的日期：', df['last_hour_date'].values[row_index])

结果如下：

原本的值： 2020-03-24T21:03:42.659895000
明天的日期： 2020-03-25T21:03:42.659895000
昨天的日期： 2020-03-23T21:03:42.659895000

原本的值： 2020-03-24T21:03:42.659895000
下一个小时的日期： 2020-03-24T22:03:42.659895000
上一个小时的日期： 2020-03-24T20:03:42.659895000

月分秒，也都是类似的做法~