7个常用的Pandas时间戳处理函数

转自:『数据STUDIO』

在零售、经济和金融等行业,数据总是由于货币和销售而不断变化,生成的所有数据都高度依赖于时间。 如果这些数据没有时间戳或标记,实际上很难管理所有收集的数据。Python 程序允许我们使用 NumPy timedelta64 和 datetime64 来操作和检索时间序列数据。 sklern库中也提供时间序列功能,但 pandas 为我们提供了更多且好用的函数。

Pandas 库中有四个与时间相关的概念

  • 日期时间:日期时间表示特定日期和时间及其各自的时区。它在 pandas 中的数据类型是 datetime64[ns] 或 datetime64[ns, tz]。

  • 时间增量:时间增量表示时间差异,它们可以是不同的单位。示例:"天、小时、减号"等。换句话说,它们是日期时间的子类。

  • 时间跨度:时间跨度被称为固定周期内的相关频率。时间跨度的数据类型是 period[freq]。

  • 日期偏移:日期偏移有助于从当前日期计算选定日期,日期偏移量在 pandas 中没有特定的数据类型。

时间序列分析至关重要,因为它们可以帮助我们了解随着时间的推移影响趋势或系统模式的因素。在数据可视化的帮助下,分析并做出后续决策。前面我们也介绍过几种使用pandas处理时间序列文章,可以戳👇:  
时间序列 | pandas时间序列基础
时间序列 | 字符串和日期的相互转换
时间序列 | 重采样及频率转换
时间序列 | 时期(Period)及其算术运算

现在我们接续看几个使用这些函数的例子。

1、查找特定日期的某一天的名称

import pandas as pd 
day = pd.Timestamp('2021/1/5') 
day.day_name()
'Tuesday'

上面的程序是显示特定日期的名称。第一步是导入 panda 的并使用 Timestamp 和 day_name 函数。"Timestamp"功能用于输入日期,"day_name"功能用于显示指定日期的名称。

2、执行算术计算

import pandas as pd 
 
day = pd.Timestamp('2021/1/5') 
day1 = day + pd.Timedelta("3 day") 
day1.day_name() 
 
day2 = day1 + pd.offsets.BDay() 
day2.day_name()
'Monday'

在第一个代码中,显示三天后日期名称。"Timedelta"功能允许输入任何天单位(天、小时、分钟、秒)的时差。

在第二个代码中,使用"offsets.BDay()"函数来显示下一个工作日。换句话说,这意味着在星期五之后,下一个工作日是星期一。

3、使用时区信息来操作转换日期时间

获取时区的信息

import pandas as pd 
import numpy as np 
from datetime import datetime 
 
dat_ran = dat_ran.tz_localize("UTC") 
dat_ran
DatetimeIndex(
['2021-01-01 00:00:00+00:00', '2021-01-01 00:01:00+00:00',
 '2021-01-01 00:02:00+00:00', '2021-01-01 00:03:00+00:00',
 '2021-01-01 00:04:00+00:00', '2021-01-01 00:05:00+00:00',
 '2021-01-01 00:06:00+00:00', '2021-01-01 00:07:00+00:00',
 '2021-01-01 00:08:00+00:00', '2021-01-01 00:09:00+00:00',
 ...
 '2021-01-04 23:51:00+00:00', '2021-01-04 23:52:00+00:00',
 '2021-01-04 23:53:00+00:00', '2021-01-04 23:54:00+00:00',
 '2021-01-04 23:55:00+00:00', '2021-01-04 23:56:00+00:00',
 '2021-01-04 23:57:00+00:00', '2021-01-04 23:58:00+00:00',
 '2021-01-04 23:59:00+00:00', '2021-01-05 00:00:00+00:00'],             
dtype='datetime64[ns, UTC]',
length=5761, freq='T')

转换为美国时区

dat_ran.tz_convert("US/Pacific")
DatetimeIndex(
['2020-12-31 16:00:00-08:00', '2020-12-31 16:01:00-08:00',
 '2020-12-31 16:02:00-08:00', '2020-12-31 16:03:00-08:00',
 '2020-12-31 16:04:00-08:00', '2020-12-31 16:05:00-08:00',
 '2020-12-31 16:06:00-08:00', '2020-12-31 16:07:00-08:00',
 '2020-12-31 16:08:00-08:00', '2020-12-31 16:09:00-08:00',
 ...
 '2021-01-04 15:51:00-08:00', '2021-01-04 15:52:00-08:00',
 '2021-01-04 15:53:00-08:00', '2021-01-04 15:54:00-08:00',
 '2021-01-04 15:55:00-08:00', '2021-01-04 15:56:00-08:00',
 '2021-01-04 15:57:00-08:00', '2021-01-04 15:58:00-08:00',
 '2021-01-04 15:59:00-08:00', '2021-01-04 16:00:00-08:00'],
dtype='datetime64[ns, US/Pacific]', 
length=5761, freq='T')

代码的目标是更改日期的时区。首先需要找到当前时区。这是"tz_localize()"函数完成的。我们现在知道当前时区是"UTC"。使用"tz_convert()"函数,转换为美国/太平洋时区。

4、使用日期时间戳

import pandas as pd 
import numpy as np 
from datetime import datetime 
dat_ran = pd.date_range(start = '1/1/2021', end = '1/5/2021', freq = 'Min') 
print(type(dat_ran[110]))
<class 'pandas._libs.tslibs.timestamps.
Timestamp'>

5、创建日期系列

import pandas as pd 
import numpy as np 
from datetime import datetime 
dat_ran = pd.date_range(start = '1/1/2021', end = '1/5/2021', freq = 'Min') 
print(dat_ran)
DatetimeIndex(
['2021-01-01 00:00:00', '2021-01-01 00:01:00',
 '2021-01-01 00:02:00', '2021-01-01 00:03:00',
 '2021-01-01 00:04:00', '2021-01-01 00:05:00',
 '2021-01-01 00:06:00', '2021-01-01 00:07:00',
 '2021-01-01 00:08:00', '2021-01-01 00:09:00',
 ...
 '2021-01-04 23:51:00', '2021-01-04 23:52:00',
 '2021-01-04 23:53:00', '2021-01-04 23:54:00',
 '2021-01-04 23:55:00', '2021-01-04 23:56:00',
 '2021-01-04 23:57:00', '2021-01-04 23:58:00',
 '2021-01-04 23:59:00', '2021-01-05 00:00:00'],
dtype='datetime64[ns]', 
length=5761, freq='T')

上面的代码生成了一个日期系列的范围。使用"date_range"函数,输入开始和结束日期,可以获得该范围内的日期。

6、操作日期序列

import pandas as pd 
from datetime import datetime 
import numpy as np 
 
dat_ran = pd.date_range(start ='1/1/2019', end ='1/08/2019',freq ='Min') 
df = pd.DataFrame(dat_ran, columns =['date']) 
df['data'] = np.random.randint(0, 100, size =(len(dat_ran))) 
print(df.head(5))
date  data
0 2019-01-01 00:00:00    68
1 2019-01-01 00:01:00    77
2 2019-01-01 00:02:00    78
3 2019-01-01 00:03:00    64
4 2019-01-01 00:04:00    42

在上面的代码中,使用"DataFrame"函数将字符串类型转换为dataframe。最后"np.random.randint()"函数是随机生成一些假定的数据。

7、使用时间戳数据对数据进行切片

import pandas as pd 
from datetime import datetime 
import numpy as np 
dat_ran = pd.date_range(start ='1/1/2019', end ='1/08/2019', freq ='Min') 
 
df = pd.DataFrame(dat_ran, columns =['date']) 
df['data'] = np.random.randint(0, 100, size =(len(dat_ran))) 
string_data = [str(x) for x in dat_ran] 
 
print(string_data[1:5])
['2019-01-01 00:01:00', 
'2019-01-01 00:02:00', 
'2019-01-01 00:03:00', 
'2019-01-01 00:04:00']

上面代码是是第6条的的延续。在创建dataframe并将其映射到随机数后,对列表进行切片。

最后总结,本文通过示例演示了时间序列和日期函数的所有基础知识。建议参考本文中的内容并尝试pandas中的其他日期函数进行更深入的学习,因为这些函数在我们实际工作中非常的重要。

推荐阅读:

我的2022届互联网校招分享

我的2021总结

浅谈算法岗和开发岗的区别

互联网校招研发薪资汇总

2022届互联网求职现状,金9银10快变成铜9铁10!!

公众号:AI蜗牛车

保持谦逊、保持自律、保持进步

8a60f9be06e27795479de3112db1cb6c.png

发送【蜗牛】获取一份《手把手AI项目》(AI蜗牛车著)

发送【1222】获取一份不错的leetcode刷题笔记

发送【AI四大名著】获取四本经典AI电子书

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值