pandas apply lambda_如何将 Pandas 循环代码加速 7 万倍，附代码

最新推荐文章于 2023-12-05 00:16:36 发布

weixin_39915721

最新推荐文章于 2023-12-05 00:16:36 发布

阅读量371

点赞数

文章标签： pandas apply lambda

(关注AI新视野，私信‘资料’二字，免费获取50G人工智能视频教程！)

如果您使用 Python 和 Pandas 进行数据分析，那么很快就会接触到循环。然而，即使对于较小的 DataFames 来说，使用标准循环也是非常耗时的，对于较大的 DataFrames 来说，可能需要很长的时间。当你第一次等待超过半个小时来执行代码时，那么本文是你所需要的。

标准循环

Datatrames 是 pandas 对象，具有行和列。如果使用循环，您将遍历整个对象。 Python 没有利用任何内置函数，所以速度非常慢。在本文的示例数据中，有65列和1140行，包含了2016-2019赛季的足球比赛结果。我们想要创建一个新列，用于表示某个特定的球队是否打了平局。操作如下:

def soc_loop(leaguedf,TEAM,): leaguedf['Draws'] = 99999 for row in range(0, len(leaguedf)): if ((leaguedf['HomeTeam'].iloc[row] == TEAM) & (leaguedf['FTR'].iloc[row] == 'D')) |  ((leaguedf['AwayTeam'].iloc[row] == TEAM) & (leaguedf['FTR'].iloc[row] == 'D')): leaguedf['Draws'].iloc[row] = 'Draw' elif ((leaguedf['HomeTeam'].iloc[row] == TEAM) & (leaguedf['FTR'].iloc[row] != 'D')) |  ((leaguedf['AwayTeam'].iloc[row] == TEAM) & (leaguedf['FTR'].iloc[row] != 'D')): leaguedf['Draws'].iloc[row] = 'No_Draw' else: leaguedf['Draws'].iloc[row] = 'No_Game'

因为在数据里有英超的每一场比赛，所以必须检查我们感兴趣的球队(阿森纳)是否踢球，如果是这样的话，他们是主队还是客队。正如你所看到的，这个循环非常慢，花了20.7秒来执行。让我们看看如何才能更有效率。

使用Pandas 内置函数: iterrows ()，快321倍

在上一个示例中，我们循环遍历了整个 DataFrame。 Iterrows ()为每一行返回一个 Series，因此它以索引对的形式遍历 DataFrame，以 Series 的形式遍历感兴趣的列。这使得它比标准循环更快:

def soc_iter(TEAM,home,away,ftr): #team, row['HomeTeam'], row['AwayTeam'], row['FTR'] if [((home == TEAM) & (ftr == 'D')) | ((away == TEAM) & (ftr == 'D'))]: result = 'Draw' elif [((home == TEAM) & (ftr != 'D')) | ((away == TEAM) & (ftr != 'D'))]: result = 'No_Draw' else: result = 'No_Game' return result

该代码运行时间为68毫秒，比标准循环快321倍。但是，许多人建议不要使用它，因为仍然有更快的选项，而且 iterrows ()不保留行之间的 dtype。这意味着，如果您在 dataframedtypes 上使用 iterrows () ，那么可以更改它，这可能会导致很多问题。保留 dtypes，也可以使用 itertuple ()。

Apply ()方法ーー快811倍

Apply 本身并不快，但当与 DataFrames 结合使用时，就具有优势。这取决于 apply 表达式的内容。如果它可以在 Cython 空间中执行，那么 apply 要快得多(这里就是这种情况)。

我们可以在 Lambda 函数中使用 apply。我们所要做的就是指定这个轴。在这种情况下，我们必须使用 axis 1，因为我们希望执行按列操作:

这段代码甚至比以前的方法更快，完成时间为27毫秒。

Pandas矢量化速度提高9280倍

现在利用向量化的优势来创建真正快速的代码。关键是要避免像前面的例子中那样的 python 级循环，并使用内存效率更高的优化 c 代码。我们只需要稍微修改一下这个函数:

def soc_iter(TEAM,home,away,ftr): df['Draws'] = 'No_Game' df.loc[((home == TEAM) & (ftr == 'D')) | ((away == TEAM) & (ftr == 'D')), 'Draws'] = 'Draw' df.loc[((home == TEAM) & (ftr != 'D')) | ((away == TEAM) & (ftr != 'D')), 'Draws'] = 'No_Draw'

现在我们可以用 Pandas series作为输入创建新列: