Pandas 用户手册——表达式求值eval()

最新推荐文章于 2024-08-05 12:43:20 发布

跳霹雳舞的蒙特卡

最新推荐文章于 2024-08-05 12:43:20 发布

阅读量1.1k

点赞数 2

分类专栏：教程文章标签： python 数据分析

本文链接：https://blog.csdn.net/qq_40732962/article/details/114852883

版权

3 篇文章 0 订阅

订阅专栏

结合实际案例，所有操作都是本人亲自实践，作为以后自己使用pandas时的用户手册。

1 支持的语法

pd.eval()具有3个特点：

（1）DataFrame数量很大（一般超过10000行）时更高效；

（2）基本的运算、布尔表达等速度非常快，具体支持的语法为：

（3）有一些语法，是不建议使用的：

我创建了4个20000*100的表格，来看eval()在简单运算所带来的提升。

rows,columns=20000,100
test1,test2,test3,test4=[pd.DataFrame(np.random.randn(rows,columns)) for i in range(4)]

我们还可以直接把简明的表达式写入eval()，此时表达式不用前面加入表格名称。

下面是名称为“expression_table”的表格：

# 通过eval()表达
expression_table.eval('C=A+B',inplace=True)

# 通过原来的Pands表达
expression_table['C']=expression_table['A']+expression_table['B']

如果eval()中调用局部变量，必须前面引用“@”，否则pandas会报错。

# 局部变量
column_new=np.random.randn(len(expression_table))
expression_table.eval("E=B+@column_new",inplace=True)

eval()有两种解析器，一种是通常使用的"pyhton"解析器，一种是更加直白简单的“pandas”解析器。

下面两个图是别人分析的，用于演示eval()表现效果的示意图。

（1）当数据量少的时候，比如10000-20000左右，pandas和eval()区别不大：

（2）当数据量达到一定量级，eval()的优势就越来越大：

关注

专栏目录