比pandas速度更快的数据分析工具-polars,已支持python语言

Polars 是使用 Apache Arrow 列格式作为内存模型,使用rust语言实现,目前已经支持python、rust、nodejs编程语言。

polars非标准库实现了多线程、查询优化以及强大的表达式接口,在同样场景的数据分析中效率提高了很多。

开始之前,我们还是一如既往的来安装一下相关的python非标准库。除了这次需要安装的polars,我们安装pandas库来做运行效率上的对比。

下面的测试案例是通过读取excel数据来观察效率的,polars读取excel数据时需要一个额外的python非标准库xlsx2csv。

pip install pandas -i https://pypi.mirrors.ustc.edu.cn/simple/

pip install polars -i https://pypi.mirrors.ustc.edu.cn/simple/

pip install xlsx2csv -i https://pypi.mirrors.ustc.edu.cn/simple/

这里说一下我遇到的坑,本来开始是在windows7上面安装polars的,结果费了好大的劲缺了这个缺那个。最后换到windows10上面直接使用pip一下就安装成功了。

话不多说,下面直接进入正题吧,先将我们测试执行效率需要的python模块导入进来。

import pandas as pd
import polars as pl
import timeit  # 记录时间点的python库

开始处理数据之前我创建了两个data1.xlsx和data2.xlsx的Excel数据文件,接下来通过excel数据的读取时间以及数据合并的执行时间来看看pandas和polars的执行效率。

1、数据读取时间

使用pandas的read_excel函数来读取data1.xlsx中的数据,并记录开始和结束时间。

begin = timeit.default_timer()
df = pd.read_excel("C:/test/data1.xlsx")
df = df.sort_values("年龄", ascending=False).head()
end = timeit.default_timer()
print('pandas读取data1.xlsx文件耗时: {} 秒'.format(str(end - begin)))

# pandas读取data1.xlsx文件耗时: 1.3099589000000003 秒

使用polars的read_excel函数来读取data1.xlsx中的数据,并记录开始和结束时间。

begin = timeit.default_timer()
data = pl.read_excel("C:/test/data1.xlsx")
data.sort(by="年龄", reverse=True).head()
end = timeit.default_timer()
print('polars读取data1.xlsx文件耗时: {} 秒'.format(str(end - begin)))

# polars读取data1.xlsx文件耗时: 0.04866970000000004 秒

结果分析:从两者的读取时间上面来看,使用polars读取excel数据的时间直接比使用pandas的读取时间减少了三分之二。

2、数据合并时间

使用pandas的read_excel函数来读取data1.xlsx和data2.xlsx合并后的数据,并记录开始和结束时间。

begin = timeit.default_timer()
df_1 = pd.read_excel('C:/test/data1.xlsx')
df_2 = pd.read_excel('C:/test/data2.xlsx')
df_1.append(df_2, ignore_index=True)
end = timeit.default_timer()
print('pandas合并data1.xlsx和data2.xlsx文件数据耗时: {} 秒'.format(str(end - begin)))

# pandas合并data1.xlsx和data2.xlsx文件数据耗时: 0.09114529999999998 秒

使用polars的read_excel函数来读取data1.xlsx和data2.xlsx合并后的数据,并记录开始和结束时间。

begin = timeit.default_timer()
data_1 = pl.read_excel('C:/test/data1.xlsx')
data_2 = pl.read_excel('C:/test/data2.xlsx')
data_1.vstack(data_2)
end = timeit.default_timer()
print('polars合并data1.xlsx和data2.xlsx文件数据耗时: {} 秒'.format(str(end - begin)))

# # polars合并data1.xlsx和data2.xlsx文件数据耗时: 0.034866100000000344 秒

结果分析:从两者的合并数据的时间上面来看,使用polars读取excel数据的时间直接比使用pandas的读取时间也减少了将近三分之二。

因此,个人觉得若是处理数据体量介于小体量及大体量数据之间的数据体量的数据处理则可以采用polars库来进行处理。毕竟相当庞大的数据体量还有spark等数据处理库。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Python 集中营

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值