从 Pandas 到 Polars 二十七：Polars中灵活的时间序列聚合

sosogod

已于 2024-07-19 16:22:05 修改

阅读量179

点赞数 3

分类专栏：极速数据处理：Polars揭秘文章标签： pandas

于 2024-07-19 15:14:39 首次发布

本文链接：https://blog.csdn.net/sosogod/article/details/140550187

版权

极速数据处理：Polars揭秘专栏收录该内容

30 篇文章 0 订阅

订阅专栏

使用groupby_dynamic进行时间序列聚合

Polars中的时间序列聚合既快速又灵活。

在最近的一个项目中，我需要处理一个遥测的10年每两分钟的数据，并需要计算每小时的平均值——大约250万行数据乘以100列。

在Polars中，我使用了groupby_dynamic，发现它比Pandas快10倍，这让客户们感到满意！

# 创建 Polars DataFrame
df = pl.DataFrame({
    'date':pl.date_range(datetime(2010,1,1),datetime(2021,1,2),interval='2m'),
})
df = pl.concat([df,pl.DataFrame(np.random.standard_normal((len(df),100)))],how='horizontal')

# 使用 Polars 进行每小时聚合
df.groupby_dynamic("date",every='1h').agg(pl.all().exclude('date').mean())
# 耗时: 0.25 seconds


# 使用 Pandas 进行每小时聚合
dfPandas.groupby(pd.Grouper(key='date',freq='1h')).mean()
# 耗时: 2.5 seconds

使用Polars在3小时窗口内进行小时分组

为了处理高频变化性，我也需要在3小时滚动窗口内执行此操作。

这不是问题——你可以指定间隔周期来获取所需的滚动平均值，而无需付出性能成本。

df.groupby_dynamic("date",every='1h',period='3h').agg(pl.all().exclude('date').mean())

往期文章：

从 Pandas 到 Polars 十八：数据科学 2025，对未来几年内数据科学领域发展的预测或展望

sosogod

关注

3
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
从 Pandas 到 Polars 二十七：Polars中灵活的时间序列聚合

在最近的一个项目中，我拥有来自遥测的10年每两分钟的数据，并需要计算每小时的平均值——大约250万行数据乘以100列。在Polars中，我使用了groupby_dynamic，发现它比Pandas快10倍，这让客户们感到满意！这不是问题——你可以指定间隔周期来获取所需的滚动平均值，而无需付出性能成本。为了处理高频变化性，我也需要在3小时滚动窗口内执行此操作。Polars中的时间序列聚合既快速又灵活。
复制链接

扫一扫