python 模糊匹配比较_Python模糊匹配（FuzzyWuzzy）-仅保留最佳匹配

最新推荐文章于 2024-08-07 14:36:00 发布

WAStateGov

最新推荐文章于 2024-08-07 14:36:00 发布

阅读量1k

点赞数

文章标签： python 模糊匹配比较

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_34996026/article/details/114399987

版权

本文介绍了如何使用Python的FuzzyWuzzy库进行模糊匹配，特别是针对两个CSV文件中名称列的比较。作者展示了如何创建查找字典，计算相似度得分，并从结果中筛选出超过60%匹配度的项。目标是只保留每个名称的最佳匹配项，即第二列中的最高得分。目前的脚本输出所有匹配，作者寻求帮助以修改脚本以删除重复名称并仅显示最高得分的匹配。

摘要由CSDN通过智能技术生成

我试图模糊匹配两个csv文件，每个文件包含一列名称，它们相似但不相同。

到目前为止，我的代码如下：

import pandas as pd

from pandas import DataFrame

from fuzzywuzzy import process

import csv

save_file = open('fuzzy_match_results.csv', 'w')

writer = csv.writer(save_file, lineterminator = '\n')

def parse_csv(path):

with open(path,'r') as f:

reader = csv.reader(f, delimiter=',')

for row in reader:

yield row

if __name__ == "__main__":

## Create lookup dictionary by parsing the products csv

data = {}

for row in parse_csv('names_1.csv'):

data[row[0]] = row[0]

## For each row in the lookup compute the partial ratio

for row in parse_csv("names_2.csv"):

#print(process.extract(row,data, limit = 100))

for found, score, matchrow in process.extract(row, data, limit=100):

if score >= 60:

print('%d%% partial match: "%s" with "%s" ' % (score, row, found))

Digi_Results = [row, score, found]

writer.writerow(Digi_Results)

save_file.close()

输出如下：

Name11 , 90 , Name25

Name11 , 85 , Name24

Name11 , 65 , Name29

该脚本工作正常。输出是预期的。但是我所寻找的只是最佳的匹配。

Name11 , 90 , Name25

Name12 , 95 , Name21

Name13 , 98 , Name22

因此，我需要基于第2列中的最大值，以某种方式删除第1列中的重复名称。这应该相当简单，但是我似乎无法弄清楚。任何帮助，将不胜感激。

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
python 模糊匹配比较_Python模糊匹配（FuzzyWuzzy）-仅保留最佳匹配

我试图模糊匹配两个csv文件，每个文件包含一列名称，它们相似但不相同。到目前为止，我的代码如下：import pandas as pdfrom pandas import DataFramefrom fuzzywuzzy import processimport csvsave_file = open('fuzzy_match_results.csv', 'w')writer = csv.writ...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。