pandas之时序数据

pandas之时序数据
一、 时序的创建

  1. 时间点的创建
    (1)to_datetime方法
    pandas在时间点进阿里的输入格式在规定上给了很大的自由度,下面都可以:
pd.to_datetime('2020.1.1')
pd.to_datetime('2020 1.1')
pd.to_datetime('2020 1 1')
pd.to_datetime('2020 1-1')
pd.to_datetime('2020-1 1')
pd.to_datetime('2020-1-1')
pd.to_datetime('2020/1/1')
pd.to_datetime('1.1.2020')
pd.to_datetime('1.1 2020')
pd.to_datetime('1 1 2020')
pd.to_datetime('1 1-2020')
pd.to_datetime('1-1 2020')
pd.to_datetime('1-1-2020')
pd.to_datetime('1/1/2020')
pd.to_datetime('20200101')
pd.to_datetime('2020.0101')

(2)时间精度与范围限制
Timestamp的精度最小到纳秒(ns),范围大约有584年。

###精度
pd.to_datetime('2020/1/1 00:00:00.123456789')

##时间范围
pd.Timestamp.min
pd.Timestamp.max

(3)date_range方法
一般来说,start/end/periods(时间点个数)/freq(间隔方法)是该方法最重要的参数,给定了其中3个,剩下的一个就会被确定

pd.date_range(start='2020/1/1',end='2020/1/10',periods=3)

pd.date_range(start='2020/1/1',end='2020/1/10',freq='D')

pd.date_range(start='2020/1/1',periods=3,freq='D')

pd.date_range(end='2020/1/3',periods=3,freq='D')

freq参数罗列如下:
在这里插入图片描述

pd.date_range(start='2020/1/1',periods=3,freq='T')
#运行结果:
#DatetimeIndex(['2020-01-01 00:00:00', #'2020-01-01 00:01:00',
#              '2020-01-01 00:02:00'],
#             dtype='datetime64[ns]', #freq='T')

pd.date_range(start='2020/1/1',periods=3,freq='M')
#运行结果:
#DatetimeIndex(['2020-01-31', '2020-02-#29', '2020-03-31'], #dtype='datetime64[ns]', freq='M')

pd.date_range(start='2020/1/1',periods=3,freq='BYS')
#运行结果:
#DatetimeIndex(['2020-01-01', '2021-01-01', '2022-01-03'], dtype='datetime64[ns]', freq='BAS-JAN')

bdate_range是一个类似与date_range的方法,特点在于可以在自带的工作日间隔设置上,再选择weekmask参数和holidays参数。它的freq中有一个特殊的’C’/‘CBM’/'CBMS’选项,表示定制,需要联合weekmask参数和holidays参数使用。

例如现在需要将工作日中的周一、周二、周五3天保留,并将部分holidays剔除

weekmask = 'Mon Tue Fri'
holidays = [pd.Timestamp('2020/1/%s'%i) for i in range(7,13)]
#注意holidays
pd.bdate_range(start='2020-1-1',end='2020-1-15',freq='C',weekmask=weekmask,holidays=holidays)
  1. DateOffset对象
    (1)增减一段时间
    DateOffset的可选参数包括years/months/weeks/days/hours/minutes/seconds
pd.Timestamp('2020-01-01') + pd.DateOffset(minutes=20) - pd.DateOffset(weeks=2)

(2)各类常用offset对象
在这里插入图片描述

(3)序列的offset操作
利用apply函数

pd.Series(pd.offsets.BYearBegin(3).apply(i) for i in pd.date_range('20200101',periods=3,freq='Y'))
#运行结果:
#0   2023-01-02
#1   2024-01-01
#2   2025-01-01
#dtype: datetime64[ns]

#### 直接使用对象加减
pd.date_range('20200101',periods=3,freq='Y') + pd.offsets.BYearBegin(3)
#运行结果:
#DatetimeIndex(['2023-01-02', '2024-01-01', '2025-01-01'], dtype='datetime64[ns]', freq='A-DEC')

二、时序的索引及其属性
1.索引切片

rng = pd.date_range('2020','2021', freq='W')
ts = pd.Series(np.random.randn(len(rng)), index=rng)
ts.head()
##运行结果:
#2020-01-05   -0.275349
#2020-01-12    2.359218
#2020-01-19   -0.447633
#2020-01-26   -0.479830
#2020-02-02    0.517587
#Freq: W-SUN, dtype: float64

random.randn(a)生成标准正态分布;
random.randn(a,b)生成a行b列的标准正态分布。

2.子集索引

ts['2020-7'].head()
#运行结果:
#2020-07-05   -0.088912
#2020-07-12    0.153852
#2020-07-19    1.670324
#2020-07-26    0.568214
#Freq: W-SUN, dtype: float64

ts['2011-1':'20200726'].head()
#运行结果:
#2020-01-05   -0.275349
#2020-01-12    2.359218
#2020-01-19   -0.447633
#2020-01-26   -0.479830
#2020-02-02    0.517587
#Freq: W-SUN, dtype: float64
  1. 时间点的属性
pd.date_range('2020','2021', freq='W').month
#Int64Index([ 1,  1,  1,  1,  2,  2,  2,  2,  3,  3,  3,  3,  3,  4,  4,  4,  4
#5,  5,  5,  5,  5,  6,  6,  6,  6,  7,  7,  7,  7,  8,  8,  8,  8,
#8,  9,  9,  9,  9, 10, 10, 10, 10, 11, 11, 11, 11, 11, 12, 12, 12,
#            12],
#           dtype='int64')

pd.date_range('2020','2021', freq='W').weekday
#Int64Index([6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6,
#            6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6,
 #           6, 6, 6, 6, 6, 6, 6, 6],
   #        dtype='int64')

三、重采样
(resample函数)

  1. resample对象的基本操作
df_r = pd.DataFrame(np.random.randn(1000, 3),index=pd.date_range('1/1/2020', freq='S', periods=1000),
                  columns=['A', 'B', 'C'])
r = df_r.resample('3min')
r.sum()

在这里插入图片描述

df_r2 = pd.DataFrame(np.random.randn(200, 3),index=pd.date_range('1/1/2020', freq='D', periods=200),
                  columns=['A', 'B', 'C'])
r = df_r2.resample('CBMS')
r.sum()

在这里插入图片描述
2. 采样聚合

r = df_r.resample('3T')
r['A'].mean()
#运行结果
#2020-01-01 00:00:00   -0.048737
#2020-01-01 00:03:00    0.021236
#2020-01-01 00:06:00    0.015248
#2020-01-01 00:09:00    0.025865
#2020-01-01 00:12:00   -0.058593
#2020-01-01 00:15:00    0.087952
#Freq: 3T, Name: A, dtype: float64
r['A'].agg([np.sum, np.mean, np.std])

在这里插入图片描述
类似地,可以使用函数/lambda表达式

r.agg({'A': np.sum,'B': lambda x: max(x)-min(x)})

在这里插入图片描述
3. 采样组的迭代
采样组的迭代和groupby迭代完全类似,对于每一个组都可以分别做相应操作

small = pd.Series(range(6),index=pd.to_datetime(['2020-01-01 00:00:00', '2020-01-01 00:30:00'
                                                 , '2020-01-01 00:31:00','2020-01-01 01:00:00'
                                                 ,'2020-01-01 03:00:00','2020-01-01 03:05:00']))
resampled = small.resample('H')
for name, group in resampled:
    print("Group: ", name)
    print("-" * 27)
    print(group, end="\n\n")

四、窗口函数
下面主要介绍pandas中两类主要的窗口(window)函数:rolling/expanding

s = pd.Series(np.random.randn(1000),index=pd.date_range('1/1/2020', periods=1000))
s.head()
  1. Rolling
    所谓rolling方法,就是规定一个窗口,它和groupby对象一样,本身不会进行操作,需要配合聚合函数才能计算结果
s.rolling(window=50)
#运行结果:
#Rolling [window=50,center=False,axis=0]

s.rolling(window=50).mean()
##运行结果
##2020-01-01         NaN
#2020-01-02         NaN
#2020-01-03         NaN
#2020-01-04         NaN
#2020-01-05         NaN
                ...   
#2022-09-22    0.160743
#2022-09-23    0.136296
#2022-09-24    0.147523
#2022-09-25    0.133087
#2022-09-26    0.130841
#Freq: D, Length: 1000, dtype: float64
  1. Expanding
    普通的expanding函数等价与rolling(window=len(s),min_periods=1),是对序列的累计计算
s.rolling(window=len(s),min_periods=1).sum().head()
#运行结果
#2020-01-01    0.305974
#2020-01-02    0.491195
#2020-01-03   -0.155277
#2020-01-04   -1.585570
#2020-01-05   -2.541664
#Freq: D, dtype: float64

apply方法也是同样可用的

s.expanding().apply(lambda x:sum(x)).head()
#2020-01-01    0.305974
#2020-01-02    0.491195
#2020-01-03   -0.155277
#2020-01-04   -1.585570
#2020-01-05   -2.541664
#Freq: D, dtype: float64

shift/diff/pct_change都是涉及到了元素关系
①shift是指序列索引不变,但值向后移动
②diff是指前后元素的差,period参数表示间隔,默认为1,并且可以为负
③pct_change是值前后元素的变化百分比,period参数与diff类似

s.shift(2).head()
#运行结果:
#2020-01-01         NaN
#2020-01-02         NaN
#2020-01-03    0.305974
#2020-01-04    0.185221
#2020-01-05   -0.646472
#Freq: D, dtype: float64

s.diff(3).head()
#运行结果:
#2020-01-01         NaN
#2020-01-02         NaN
#2020-01-03         NaN
#2020-01-04   -1.736267
#2020-01-05   -1.141316
#Freq: D, dtype: float64

s.pct_change(3).head()
#运行结果:
#2020-01-01         NaN
#2020-01-02         NaN
#2020-01-03         NaN
#2020-01-04   -5.674559
#2020-01-05   -6.161897
#Freq: D, dtype: float64
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值