原标题:高逼格使用Pandas加速代码,向for循环说拜拜!
作者:George Seif
编译:公众号翻译部
全网进行中···
你为什么劝入/劝退Quant?
前言
使用Pandas dataframe执行数千甚至数百万次计算仍然是一项挑战。你不能简单的将数据丢进去,编写Python for循环,然后希望在合理的时间内处理数据。
Pandas是为一次性处理整个行或列的矢量化操作而设计的,循环遍历每个单元格、行或列并不是它的设计用途。所以,在使用Pandas时,你应该考虑高度可并行化的矩阵运算。
本文将教你如何使用Pandas设计使用的方式,并根据矩阵运算进行思考。在此过程中,我们将向你展示一些实用的节省时间的技巧和窍门,这些技巧和技巧将使你的Pandas代码比那些可怕的Python for循环更快地运行!
数据准备
在本文中,我们将使用经典的鸢尾花数据集。
现在让我们建立一个标准线,用Python for循环来测量我们的速度。我们将通过循环遍历每一行来设置要在数据集上执行的计算,然后测量整个操作的速度。这将为我们提供一个基准,以了解我们的新优化对我们有多大帮助。
在上面的代码中,我们创建了一个基本函数,它使用If-Else语句根据花瓣的长度选择花的类。我们编写了一个for循环,通过循环dataframe对每一行应用函数,然后测量循环的总时间。
在i7-8700k计算机上