python并行处理for循环_如何在python上并行处理此嵌套循环

最新推荐文章于 2024-07-31 02:06:04 发布

金融猎头Jerry

最新推荐文章于 2024-07-31 02:06:04 发布

阅读量2.5k

点赞数

文章标签： python并行处理for循环

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_34185396/article/details/113980698

版权

本文介绍了如何使用Fuzzywuzzy库进行字符串匹配，并针对一个涉及两个嵌套for循环的Python函数进行了并行处理优化。原始代码在处理大量数据时效率低下，通过使用多进程、减少fuzz.ratio调用次数以及引入长度比率预检查，显著提升了运行速度。建议使用RapidFuzz库进一步提升性能。

摘要由CSDN通过智能技术生成

我正在尝试减少名称列表，并且为了执行此操作，我使用了fuzzywuzzy图书馆。

我对所有名称执行两个for循环。如果两个名称的匹配分数在90到100之间，则我用第一个名字重写了第二个名字。

这是我的数据集的示例data。

nombre

0 VICTOR MORENO MORENO

1 SERGIO HERNANDEZ GUTIERREZ

2 FRANCISCO JAVIER MUÑOZ LOPEZ

3 JUAN RAYMUNDO MORALES MARTINEZ

4 IVAN ERNESTO SANCHEZ URROZ

这是我的功能：

def fuzz_analisis0(top_names):

for name2 in top_names["nombre"]:

for name in top_names["nombre"]:

if fuzz.ratio(name, name2)>90 and fuzz.ratio(name, name2)<100:

top_names[top_names["nombre"]==name] = name2

当我用以下命令运行时：

fuzz_analisis0(data)

一切正常。这是显示其工作原理的输出。

print(len(data))

# 1400

data = data.drop_duplicates()

print(len(data))

# 1256

但是现在，如果我尝试使用并行处理，它将无法按预期运行。这是并行化的代码：

co

最低0.47元/天解锁文章

金融猎头Jerry

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。