21-Python Pandas时间序列

Python Pandas时间序列详解

顾名思义,时间序列(time series),就是由时间构成的序列,它指的是在一定时间内按照时间顺序测量的某个变量的取值序列,比如一天内的温度会随时间而发生变化,或者股票的价格会随着时间不断的波动,这里用到的一系列时间,就可以看做时间序列。时间序列包含三种应用场景,分别是:

  • 特定的时刻(timestamp),也就是时间戳;
  • 固定的日期(period),比如某年某月某日;
  • 时间间隔(interval),每隔一段时间具有规律性;

在处理时间序列的过程中,我们一般会遇到两个问题,第一,如何创建时间序列;第二,如何更改已生成时间序列的频率。 Pandas 为解决上述问题提供了一套简单、易用的方法。

下面用 Python 内置的 datetime 模块来获取当前时间,通过该模块提供的now()方法即可实现。

from datetime import datetime
#数据类型为datetime
print(datetime.now())

输出结果:

2024-07-01 23:24:04.684003

创建时间戳

TimeStamp(时间戳) 是时间序列中的最基本的数据类型,它将数值与时间点完美结合在一起。Pandas 使用下列方法创建时间戳:

import pandas as pd
print (pd.Timestamp('2024-07-01'))

输出结果:

2024-07-01 00:00:00

同样,可以将整型或浮点型表示的时间转换为时间戳。默认的单位是纳秒(时间戳单位),示例如下:

import pandas as pd
print(pd.Timestamp(1687987255,unit='s'))

输出结果:

2023-06-28 21:20:55

创建时间范围

通过 date_range() 方法可以创建某段连续的时间或者固定间隔的时间时间段。该函数提供了三个参数,分别是:

  • start:开始时间
  • end:结束时间
  • freq:时间频率,默认为 “D”(天)

示例如下:

import pandas as pd
#freq表示时间频率,每30min变化一次
print(pd.date_range("9:00", "18:10", freq="30min").time)

输出结果:

[datetime.time(9, 0) datetime.time(9, 30) datetime.time(10, 0)
 datetime.time(10, 30) datetime.time(11, 0) datetime.time(11, 30)
 datetime.time(12, 0) datetime.time(12, 30) datetime.time(13, 0)
 datetime.time(13, 30) datetime.time(14, 0) datetime.time(14, 30)
 datetime.time(15, 0) datetime.time(15, 30) datetime.time(16, 0)
 datetime.time(16, 30) datetime.time(17, 0) datetime.time(17, 30)
 datetime.time(18, 0)]

更改时间频率

import pandas as pd
#修改为按小时
print(pd.date_range("6:10", "11:45", freq="H").time)

输出结果:

[datetime.time(6, 10) datetime.time(7, 10) datetime.time(8, 10)
 datetime.time(9, 10) datetime.time(10, 10) datetime.time(11, 10)]

转化为时间戳

您可以使用 to_datetime() 函数将 series 或 list 转换为日期对象,其中 list 会转换为DatetimeIndex。示例如下:

import pandas as pd
print(pd.to_datetime(pd.Series(['2020-12-10', None]),dayfirst=False))

输出结果:

0   2020-12-10
1          NaT
dtype: datetime64[ns]

注意:NaT 表示的不是时间 ,它等效于 NaN。

最后再来看一个示例:

import pandas as pd
#传入list,生成Datetimeindex
print(pd.to_datetime(['2020-12-10', None]))

输出结果:

DatetimeIndex([‘2020-06-03’, ‘2020-12-10’, ‘NaT’], dtype=‘datetime64[ns]’, freq=None)

读取文件中的数据转换为时间:

import pandas as pd
df = pd.read_csv("C:\\Users\\qwy\Desktop\data\\empdata.csv",encoding='utf-8')
print(pd.to_datetime(df.loc[:,'HIREDATE']))

运行结果:

0    1980-12-17
1    1981-02-20
2    1981-02-22
3    1981-04-02
4    1981-09-28
5    1981-05-01
6    1981-06-09
7    1987-04-19
8    1981-11-17
9    1981-09-08
10   1987-05-23
11   1981-12-03
12   1981-12-03
13   1982-01-23
Name: HIREDATE, dtype: datetime64[ns]

频率和周期转换

Time Periods 表示时间跨度,一段时间周期,它被定义在 Pandas Periods 类中,通过该类提供的方法可以实现将频率转换为周期。比如 Periods() 方法,可以将频率 “M”(月)转换为 Period(时间段)。

下面示例,使用 asfreq() 和 start 参数,打印 “01” ,若使用 end 参数,则打印 “31”。示例如下:

import pandas as pd
x = pd.Period('2024', freq='M')
#start参数
print(x.asfreq('D', 'start'))
#end参数
print(x.asfreq('D', 'end'))

输出结果:

2024-01-01
2024-01-31

对于常用的时间序列频率,Pandas 为其规定了一些字符串别名,我们将这些别名称为“offset(偏移量)”。如下表所示:

别名描述别名描述
B工作日频率BQS工作季度开始频率
D日历日频率A年终频率
W每周频率BA工作年度结束频率
M月末频率BAS工作年度开始频率
SM半月结束频率BH营业时间频率
BM工作月结束频率H小时频率
MS月开始频率T,min每分钟频率
SMS半月开始频率S每秒钟频率
BMS工作月开始频率L,ms毫秒
Q季末频率U,us微妙
BQ工作季度结束频率N纳秒
QS季度开始频率

时间周期计算

周期计算,指的是对时间周期进行算术运算,所有的操作将在“频率”的基础上执行。

import pandas as pd
#S表示秒
x = pd.Period('2024', freq='S')
print(x)

输出结果:

2024-01-01 00:00:00

执行计算示例:

import pandas as pd
x = pd.Period('2024', freq='S')
#加1s的时间
print(x+1)

输出结果:

2024-01-01 00:00:01

再看一组完整的示例:

import pandas as pd 
#定义时期period,默认freq="Y"年份
p1=pd.Period('2020')
p2=pd.Period('2019')
#使用f''格式化输出
print(f'p1={p1}年')
print(f'p2={p2}年')
print(f'p1和p2间隔{p1-p2}年')
#f''表示字符串格式化输出
print(f'五年前是{p1-5}年')

输出结果:

p1=2020年
p2=2019年
p1和p2间隔<YearEnd: month=12>年
五年前是2015年

创建时间周期

我们可以使用 period_range() 方法来创建时间周期范围。示例如下:

import pandas as pd
#M表示月
p = pd.period_range('2016','2018', freq='M')
print(p)

输出结果:

PeriodIndex(['2016-01', '2016-02', '2016-03', '2016-04', '2016-05', '2016-06',
             '2016-07', '2016-08', '2016-09', '2016-10', '2016-11', '2016-12',
             '2017-01', '2017-02', '2017-03', '2017-04', '2017-05', '2017-06',
             '2017-07', '2017-08', '2017-09', '2017-10', '2017-11', '2017-12',
             '2018-01'],
            dtype='period[M]')

时间序列转换

如果想要把字符串日期转换为 Period,首先需要将字符串转换为日期格式,然后再将日期转换为 Period。示例如下:

import  pandas as pd
import  numpy as np
# 创建时间序列
index=pd.date_range("2020-03-17","2020-03-30",freq="1.5H")
#随机选取4个互不相同的数
loc=np.random.choice(np.arange(len(index)),size=4,replace=False)
loc.sort()
ts_index=index[loc]
print(ts_index)
di_index=pd.DatetimeIndex(ts_index)
print(di_index)

pd_index = pd.PeriodIndex(ts_index,freq="S")
print(pd_index)

输出结果:

DatetimeIndex(['2020-03-21 10:30:00', '2020-03-25 01:30:00',
               '2020-03-27 04:30:00', '2020-03-28 18:00:00'],
              dtype='datetime64[ns]', freq=None)
DatetimeIndex(['2020-03-21 10:30:00', '2020-03-25 01:30:00',
               '2020-03-27 04:30:00', '2020-03-28 18:00:00'],
              dtype='datetime64[ns]', freq=None)
PeriodIndex(['2020-03-21 10:30:00', '2020-03-25 01:30:00',
             '2020-03-27 04:30:00', '2020-03-28 18:00:00'],
            dtype='period[S]')

使用 to_timestamp() 能够将 Period 时期转换为时间戳(timestamp),示例如下:

import pandas as pd
p1=pd.Period('2024-07-02')
print(p1.to_timestamp())

输出结果:

2024-07-02 00:00:00

创建日期范围

Pandas 提供了用来创建日期序列的函数 date_range(),该函数的默认频率为 “D”, 也就是“天”。日期序列只包含年、月、日,不包含时、分、秒。

下面是一组简单的示例,如下所示:

import pandas as pd
print(pd.date_range('07/15/2024', periods=10,freq="D"))

输出结果:

DatetimeIndex(['2024-07-15', '2024-07-16', '2024-07-17', '2024-07-18',
               '2024-07-19', '2024-07-20', '2024-07-21', '2024-07-22',
               '2024-07-23', '2024-07-24'],
              dtype='datetime64[ns]', freq='D')

更改日频率

使用下列方法可以修改频率,比如按“天”为按“月”,示例如下:

import pandas as pd
print(pd.date_range('12/15/2011', periods=5,freq='M'))

输出结果:

DatetimeIndex(['2011-12-31', '2012-01-31', '2012-02-29', '2012-03-31',
               '2012-04-30'],
              dtype='datetime64[ns]', freq='M')

工作日时间

bdate_range() 表示创建工作日的日期范围,它与 date_range() 不同,它不包括周六、周日。

import pandas as pd
print(pd.bdate_range('07/01/2024', periods=8))

输出结果:

DatetimeIndex(['2024-07-01', '2024-07-02', '2024-07-03', '2024-07-04',
               '2024-07-05', '2024-07-08', '2024-07-09', '2024-07-10'],
              dtype='datetime64[ns]', freq='B')

上述方法中,date_range() 默认频率是日历日,而 bdate_range() 的默认频率是工作日。

  • 18
    点赞
  • 15
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值