python 模糊匹配比较_使用python模糊匹配排序列与自身

最新推荐文章于 2023-12-12 12:00:00 发布

weixin_39976951

最新推荐文章于 2023-12-12 12:00:00 发布

阅读量289

点赞数

文章标签： python 模糊匹配比较

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_39976951/article/details/114917813

版权

我有一个20万行的数据集，有两列：1-唯一的客户id和地址组合，2-收入。该表按收入进行排序，目标是通过对第1列进行模糊匹配来清理第1列，以检查是否存在任何收入较高的客户地址组合，这些组合可用于替换收入较低的组合，而这些组合很可能是由于拼写差异造成的。在

示例：

第一行的第三个值和第一行很相似。在

我有一个工作的python代码，但它太慢了：import pandas as pd

import datetime

import time

import numpy as np

from pyxdameraulevenshtein import normalized_damerau_levenshtein_distance, normalized_damerau_levenshtein_distance_ndarray

data = pd.read_csv("CustomerMaster.csv", encoding="ISO-8859-1")

# Create lookup column from the dataframe itself:

lookup_data=data['UNIQUE_ID']

lookup_data=pd.Series.to_frame(lookup_data)

# Start iterating on row by row on lookup data to find the first closest fuzzy match and write that back into dataframe:

start = time.time()

for index,row in data.iterrows():

if index%5000==0:print(index, time.time()-start)

for index2, row2 in lookup_data.iterrows():

ratio_val=normalized_damerau_levenshtein_distance(row['UNIQUE_ID'],row2['UNIQUE_ID'])

if ratio_val<0.15:

data.set_value(index,'UPDATED_ID',row2['UNIQUE_ID'])

data.set_value(index,'Ratio_Val',ratio_val)

break

目前，这段模糊匹配的代码块运行时间太长了——前15k行大约需要8个小时，时间成倍增长，正如人们所预期的那样。关于如何更有效地编写这段代码有什么建议吗？在

weixin_39976951

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python 模糊匹配比较_使用python模糊匹配排序列与自身

我有一个20万行的数据集，有两列：1-唯一的客户id和地址组合，2-收入。该表按收入进行排序，目标是通过对第1列进行模糊匹配来清理第1列，以检查是否存在任何收入较高的客户地址组合，这些组合可用于替换收入较低的组合，而这些组合很可能是由于拼写差异造成的。在示例：第一行的第三个值和第一行很相似。在我有一个工作的python代码，但它太慢了：import pandas as pdimport datet...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。