在Pandas中通过时间频率来汇总数据的三种常用方法

9d98e168a98549bb30dd2978b38720ed.png

来源:DeepHub IMBA‍‍‍‍
本文约1400字,建议阅读7分钟
本文总结了这三种常用的方法帮助你汇总时间序列数据。

当我们的数据涉及日期和时间时,分析随时间变化变得非常重要。Pandas提供了一种方便的方法,可以按不同的基于时间的间隔(如分钟、小时、天、周、月、季度或年)对时间序列数据进行分组。

87dee3803595a4197c45a3d3d0fa576b.png

在Pandas中,有几种基于日期对数据进行分组的方法。我们将使用这些虚拟数据进行演示:

 
 
import pandas as pd 
 import numpy as np
 # generating data consisting of weekly sales for the timeperiod Jan,2022 to Jan,2023
 dates =  pd.date_range('2022-01-01', '2023-01-05', freq = '1 W')
 sales_val = np.linspace(1000, 2000,len(dates) )
 data = {'date':dates,
         'sales': sales_val} 
 # Load the data 
 df = pd.DataFrame(data) 
 # Convert the 'date' column to a datetime type 
 df['date'] = pd.to_datetime(df['date']) 
 df.sample(5)

9d783deda439e43eae77b810ca43bfab.png

一些最常用的时间序列数据分组方法是:

1. resample

pandas中的resample 方法用于对时间序列数据进行重采样,可以将数据的频率更改为不同的间隔。例如将每日数据重新采样为每月数据。Pandas中的resample方法可用于基于时间间隔对数据进行分组。它接收frequency参数并返回一个Resampler对象,该对象可用于应用各种聚合函数,如mean、sum或count。resample()只在DataFrame的索引为日期或时间类型时才对数据进行重新采样。

 
 
import matplotlib.pyplot as plt
 import seaborn as sns
 # Set the 'date' column as the index,
 # and Group the data by month using resample 
 grouped = df.set_index('date').resample('M').mean() 
 print("Grouping is done on monthly basis using resample method:\n", grouped)
 # plot the average of monthly sales
 sns.lineplot(grouped.index, grouped['sales'])
 plt.xlabel("Date")
 plt.ylabel("Average Monthly Sales")
 plt.grid(True)
 plt.title("Average Monthly sales with respect to month")

4ce7f237ca1f6bccd6c5a5b9089f5f39.png9e77fc61fe447114a7479bbf06f624f5.png

在本例中,我们首先将' date '列转换为日期类型,然后将其设置为DataFrame的索引。然后使用重采样方法按月分组数据,并计算每个月的“sales”列的平均值。结果是一个新的DF,每个月有一行,还包含该月“sales”列的平均值。

2. 使用Grouper

pandas的Grouper 函数可以与 groupby 方法一起使用,以根据不同的时间间隔(例如分钟、小时、天、周、月、季度或年)对数据进行分组。Grouper 包含了key (包含日期的列)、frequency (分组依据的间隔)、closed (关闭间隔的一侧)和label (标记间隔)等参数。Pandas 中的 Grouper 函数提供了一种按不同时间间隔(例如分钟、小时、天、周、月、季度或年)对时间序列数据进行分组的便捷方法。通过与Pandas 中的 groupby 方法 一起使用,可以根据不同的时间间隔对时间序列数据进行分组和汇总。

Grouper函数接受以下参数:

  • key: 时间序列数据的列名。

  • freq: 时间间隔的频率,如“D”表示日,“W”表示周,“M”表示月,等等。

  • closed: 间隔是否应该在右侧(右)、左侧(左)或两侧(两个)闭合。

  • label: 用它的结束(右)或开始(左)日期标记间隔。

Grouper函数和groupby一起按月间隔对数据进行分组:

 
 
import matplotlib.pyplot as plt
 import seaborn as sns
 # Group the data by month using pd.Grouper and calculate monthly average
 grouped = df.groupby(pd.Grouper(key='date', freq='M')).mean()
 print("Grouping is done on monthly basis using pandas.Grouper and groupby method:\n", grouped)
 # plot the average of monthly sales
 sns.lineplot(grouped.index, grouped['sales'])
 plt.xlabel("Date")
 plt.ylabel("Average Monthly Sales")
 plt.grid(True)
 plt.title("Average Monthly sales with respect to month using pd.Grouper and groupby ")

c2f016bf8494e12f259c62aba44de4ad.png

44637760e9312bb5c97d0f0f977f5055.png

3. dt 访问器和 groupby

Pandas中的dt访问器可以从日期和时间类列中提取各种属性,例如年、月、日等。所以我们可以使用提取的属性根据与日期相关的信息对数据进行分组。

在Pandas中,使用dt访问器从DataFrame中的date和time对象中提取属性,然后使用groupby方法将数据分组为间隔。

 
 
import matplotlib.pyplot as plt
 import seaborn as sns
 # Group the data by month using dt and calculate monthly average
 grouped = df.groupby(df['date'].dt.to_period("M")).mean()
 print("Grouping is done on monthly basis using dt and groupby method:\n", grouped)

3e8760b1ded0b97278cf7eb8095a0682.png

总结

这三种常用的方法可以汇总时间序列数据,所有方法都相对容易使用。在时间复杂度方面,所有方法对于中小型数据集都是有效的。对于较大的数据集,resample的性能更好,因为它针对时间索引进行了优化。而,Grouper和dt提供了更大的灵活性,可以进行更复杂的分组操作。可以根据自己喜欢的语法或者特定的需求选择一种方法使用。

编辑:黄继彦‍‍‍‍‍‍

76fc7969f63de0951b5a98abc82c9be2.png

  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值