Pandas学习笔记十——高性能的eval和query方法

63 篇文章 6 订阅
39 篇文章 0 订阅

高性能的pandas:eval()和query()

python数据科学生态环境的强大力量在Numpy和Pandas的基础之上,并通过直观的语法将基本操作转化为c语言:在Numpy里是向量化/广播运算,在pandas里是分组型的运算。虽然这些抽象功能可以简洁高效的解决很多问题,但是他们经常需要创建临时对象,这样会占用很大的计算时间和内存。

Pandas为了解决性能问题,引入了eval()和query()函数,他们可以让用户直接运行C语言速度的操作,不需要费力的配置中间数组,它们都依赖于Numexpr程序包。

import numpy as np
x = np.random.rand(1000000)
y = np.random.rand(1000000)
%timeit x+y
%timeit np.fromiter(xi+yi for xi, yi in zip(x,y))

输出结果:
1.83 ms ± 14.7 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)
143 ms ± 242 µs per loop (mean ± std. dev. of 7 runs, 10 loops each)

对于下面的numpy的向量化运算,其优点很明显:想比于普通的python循环或者列表综合运行速度要快很多,但是对于下面的复合代数式问题的运算效率就比较低。

mask = (x>0.5) & (x<0.5)

#上式等价于于:
tmp1 = (x>0.5)
tmp2 = (y<0.5)
mask = tmp1 & tmp2

原因是,每段中间过程都需要显式的分配内存。如果x数组和y数组很大,这么运算将会占用大量的时间和内存。Numexpr程序库可以让你在不为中间过程分配全部内存的前提下,完成元素到元素的复合代数式运算。Pandas的eval()和query()工具就是基于Numexpr实现的。

用pandas.eval()实现高性能运算
pd.eval()支持的运算

1、算术运算

df1,df2,df3,df4,df5 = (pd.DataFrame(np.random.randint(0,1000,(100,3))),for i in range(5))
result = pd.eval('-df1 * df2 / (df3 + df4) -df5')

2、比较运算

result = pd.eval('df1 < df2 <= df3 != df4')

3、位运算

result = pd.eval('(df1<0.5) & (df2<0.5) | (df3<df4)')

5、对象属性和索引

result = pd.eval('df2.T[0] + df3.iloc[1]')
用DataFrame.eval()实现列间运算

由于pd.eval()是pandas的顶层函数,因此DataFrame有一个eval()方法可以做类似的运算. 使用eval()方法的好处是可以借助列名称进行运算.

result = pd.eval("(df.A + df.B) / (df.C -1)")

1、用DataFrame.eval()新增列

df.eval('D = (A+B) / c', inplace=True)

2、DataFrame.eval()使用局部变量

column_mean = df.mean(1)
result = df.eval('A + @column_mean')
DataFrame.query()方法

query()方法和eval()方法一样是基于DataFrame列的计算代数式。对于过滤的操作,可以使用query()方法。

result = df.query('A < @Cmean and B < @Cmean')
  • 13
    点赞
  • 56
    收藏
    觉得还不错? 一键收藏
  • 3
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值