[Python3] Pandas v1.0 —— (九) 高性能Pandas: eval()与query()

最新推荐文章于 2024-03-31 08:00:00 发布

TreasureAI

最新推荐文章于 2024-03-31 08:00:00 发布

阅读量1k

点赞数 3

分类专栏： Python3 # Pandas Data Science 文章标签： pandas python

本文链接：https://blog.csdn.net/Treasure99/article/details/106201129

版权

文章目录

- 十二、高性能Pandas：eval()与query()

[ Pandas version: 1.0.1 ]

十二、高性能Pandas：eval()与query()

Pandas数据科学生态环境的强大力量建立在NumPy与Pandas的基础上，并通过直观的语法将基本操作转换成C语言：在NumPy里是向量化/广播运算，在Pandas里是分组型的运算。

虽然这些抽象功能可以简洁高效地解决许多问题，但是它们经常需要创建临时中间对象，这样就会占用大量的计算时间与内存。

Pandas从0.13版本开始就引入了实验性工具，让用户可以直接运行C语言速度的操作，不需要十分费力地配置中间数组。它们就是eval()和query()函数，都依赖于Numexpr程序包。

（一）query()与eval()的设计动机：复合代数式

NumPy和Pandas快速向量化运算比普通Python循环或列表综合要快很多：

# 对两个数组进行求和
import numpy as np
rng = np.random.RandomState(42)
x = rng.rand(int(1E6))
y = rng.rand(int(1E6))
%timeit x + y
# 3.54 ms ± 172 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)

%timeit np.fromiter((xi + yi for xi, yi in zip(x, y)), dtype=x.dtype, count=len(x))
# 470 ms ± 29.5 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)

但这种运算在处理复合代数式（compound expression）问题时效率比较低：每段中间过程都需要显式地分配内存。

如果x数组和y数组非常大，运算就会占用大量的时间和内存消耗。

mask = (x > 0.5) & (y < 0.5)

# 由于NumPy会计算每一个代数子式，计算过程等价于：
# tmp1 = (x > 0.5)
# tmp2 = (y < 0.5)
# mask = tmp1 & tmp2

Numexpr程序包可以在不为中间过程分配全部内存的前提下，完成元素到元素的复合代数式运算（用一个NumPy风格的字符串代数式进行运算）

优点：Numexpr在计算代数式时不需要为临时数组分配全部内存，因此计算比NumPy更高效，尤其适用处理大型数组
Pandas的eval()和query()工具也是基于Numexpr实现的

import numexpr
mask_numexpr = numexpr.evaluate('(x > 0.5) & (y < 0.5)')
np.allclose(mask, mask_numexpr)
# True

（二）用pandas.eval()实现高性能运算

Pandas的eval()函数用字符串代数式实现了DataFrame的高性能运算：

import pandas as pd
nrows, ncols = 100000, 100
rng = np.random.RandomState(42)
df1, df2, df3, df4 = (pd.DataFrame(rng.rand(nrows, ncols))

最低0.47元/天解锁文章

TreasureAI

关注

3
点赞
踩
12

收藏

觉得还不错? 一键收藏
1
评论
[Python3] Pandas v1.0 —— (九) 高性能Pandas: eval()与query()

文章目录十二、高性能Pandas：eval()与query()（一）query()与eval()的设计动机：复合代数式（二）用pandas.eval()实现高性能运算pd.eval()支持的运算(1) 算术运算符(2) 比较运算符(3) 位运算符(4) 对象属性与索引(5) 其他运算（三）用DataFrame.eval()实现列间运算1. 用DataFrame.eval()新增列2. DataFrame.eval()使用局部变量（四）DataFrame.query()方法（五）性能决定使用时机[ Pan
复制链接

扫一扫

专栏目录