基于中文在线文档的Polars工具介绍

Polars是一个强大的数据处理工具,专为大规模数据集设计,提供快速多线程和延迟执行等功能。它在处理亿级数据时表现出色,对比Pandas有显著优势。本文将介绍如何下载、编译Polars,以及展示其用法案例,包括DataFrame操作、聚合函数和窗口函数等。
摘要由CSDN通过智能技术生成

Polars学习简介

Polars是一个能够提取(Extract)、转换(Transform)与加载(Load)大规模数据集的工具(快速多线程、单指令多数据流、延迟/即时执行、查询优化、混合流等)。根据官方开发人员的Benchmark结果,Polars版本号为0.8.8时,能够在143s左右导入维度在1,000,000,000*9左右,内存为50GB的数据集。与此同时,Pandas在1.2.2版本导入同样的数据集会出现out of memory的报错。

下载Polars并与工具交互

下载最新版的Polars:

pip install polars

下载Polars相关的依赖工具:

pip install 'polars[pandas]'
# pip install 'polars[numpy, pandas, pyarrow]'

参考依赖如下:

工具名 描述
all 下载所有的可选择依赖(下面出现的全部选项)
pandas 安装Pandas用于在Pandas数据帧/系列之间转换数据
numpy 安装numpy用于将数据转换到numpy数组和从numpy数组转换数据
pyarrow 使用PyArrow读取数据格式
fsspec 支持从远程文件系统(remote file systems)读取
connectorx 支持从SQL数据库(database)中读取
xlsx2csv 支持从Excel文件(files)中读取
deltalake 支持从Delta Lake表中读取
timezone 时区支持,只有在Python<3.9或Windows上时才需要

从源码编译Polars

如果需要一个最前沿的版本或最大的性能,你应该从源码编译Polars。首先,使用Git版本控制工具克隆源代码仓库(但是不要把编译完成的版本发布到你的个人账号或者用于商用了):

git clone https://github.com/pola-rs/polars.git

其次下载最新版的Rust编译器(因为python版本的Polars也是以Rust高性能语言作为编程后端) → Rust compiler
之后下载 maturin,使用如下命令:

pip install maturin

选择下面任意一个选项来编译你需要的Python版本的Polars:

  • 最新的二进制版本,较长的编译时间
$ cd py-polars && maturin develop --release -- -C target-cpu=native
  • 快的二进制版本,短些的编译时间
$ cd py-polars && maturin develop --release -- -C codegen-units=16 -C lto=thin -C target-cpu=native

用法案例

  • 构造DataFrame
df = pl.DataFrame(
    {
   
        "A": [1, 2, 3, 4, 5]
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

DeeGLMath

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值