Pandas循环提速7万多倍！Python数据分析攻略

最新推荐文章于 2024-08-08 08:45:56 发布

Yuki程序员

最新推荐文章于 2024-08-08 08:45:56 发布

阅读量676

点赞数 1

文章标签： pandas python 数据分析学习爬虫

本文链接：https://blog.csdn.net/Yuki1127918/article/details/127584296

版权

本文展示了如何使用Pandas、Numpy等工具显著提高Python数据分析的效率。通过实例比较了标准循环、iterrows()、apply()、Pandas向量化和Numpy向量化处理数据的速度，揭示了Numpy向量化可以实现7万多倍的性能提升。文章还提供了Python技术学习路线和资源，帮助读者提升数据分析技能。

摘要由CSDN通过智能技术生成

用Python和Pandas进行数据分析，很快就会用到循环。

但在这其中，就算是较小的DataFrame，使用标准循环也比较耗时。

遇到较大的DataFrame时，需要的时间会更长，会让人更加头疼。

现在，有人忍不了了。他是一位来自德国的数据分析师，名叫Benedikt Droste。

他说，当自己花了大半个小时等待代码执行的时候，决定寻找速度更快的替代方案。

在给出的替代方案中，使用Numpy向量化，与使用标准循环相比，速度提升了71803倍。

在这里插入图片描述
他是怎么实现的？我们一起来看看~

标准循环处理3年足球赛数据：20.7秒

DataFrame是具有行和列的Pandas对象。如果使用循环，需要遍历整个对象。

Python不能利用任何内置函数，而且速度很慢。在Benedikt Droste的提供的示例中，是一个包含65列和1140行的Dataframe，包含了2016-2019赛季的足球赛结果。

需要解决的问题是：创建一个新的列，用于指示某个特定的队是否打了平局。可以这样开始：

def soc_loop(leaguedf,TEAM,):
 leaguedf['Draws'] = 99999
 for row in range(0, len(leaguedf)):
 if ((leaguedf['HomeTeam'].iloc[row] == TEAM) & (leaguedf['FTR'].iloc[row] == 'D')) | \
 ((leaguedf['AwayTeam'].iloc[row] == TEAM) & (leaguedf['FTR'].iloc[row] == 'D')):
 leaguedf['Draws'].iloc[row]

最低0.47元/天解锁文章

Yuki程序员

关注

1
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
Pandas循环提速7万多倍！Python数据分析攻略

用Python和Pandas进行数据分析，很快就会用到循环。但在这其中，就算是较小的DataFrame，使用标准循环也比较耗时。遇到较大的DataFrame时，需要的时间会更长，会让人更加头疼。现在，有人忍不了了。他是一位来自德国的数据分析师，名叫Benedikt Droste。他说，当自己花了大半个小时等待代码执行的时候，决定寻找速度更快的替代方案。在给出的替代方案中，使用Numpy向量化，与使用标准循环相比，速度提升了71803倍。他是怎么实现的？我们一起来看看~
复制链接

扫一扫