使用python获取字段相似度匹配最接近的值

Citrus-

已于 2023-07-27 16:03:59 修改

阅读量1.2w

点赞数 4

文章标签： python 开发语言

于 2023-05-16 11:28:27 首次发布

本文链接：https://blog.csdn.net/qq750626620/article/details/130700082

版权

一、前言

二、简单介绍fuzzywuzzy

三、mysql表数据对照，取相似度最高值

四、将代码打包成可执行文件

一、前言

对于做数据治理、数据集成平台都会涉及到数据标准化、mdm主数据管理，说白了就是字典对照，那么对于一些又多又杂的数据字典（如医疗中的诊断、检验项目）人工对照实在是耗时耗力耗眼睛。

针对上面的问题，本文介绍了以下几点内容：

1.python第三方库 fuzzywuzzy

2.python打包可执行文件

二、简单介绍fuzzywuzzy

fuzzywuzzy是一个Python库，用于模糊字符串匹配，可以帮助你在处理文本数据时，找到最相似的字符串。它使用Levenshtein距离算法来计算两个字符串之间的相似度。

fuzzywuzzy库提供了两个主要的函数：fuzz 和 process

fuzz 函数用于计算两个字符串之间的相似度，它返回一个介于0和100之间的整数，表示两个字符串的相似度，示例如下：

    from fuzzywuzzy import fuzz

    string1 = "apple"
    string2 = "appel"
    similarity = fuzz.ratio(string1, string2)
    print(similarity)  # 输出： 91

process函数用于在一个字符串列表中查找与给定字符串最相似的字符，示例如下：

from fuzzywuzzy import process

string = "appl

最低0.47元/天解锁文章

Citrus-

关注

4
点赞
踩
14

收藏

觉得还不错? 一键收藏
0
评论
使用python获取字段相似度匹配最接近的值

对于做数据治理、数据集成平台都会涉及到数据标准化、mdm主数据管理，说白了就是字典对照，那么对于一些又多又杂的数据字典（如医疗中的诊断、检验项目）人工对照实在是耗时耗力耗眼睛。针对上面的问题，本文介绍了以下几点内容：1.python第三方库fuzzywuzzy2.python打包可执行文件fuzzywuzzy是一个Python库，用于模糊字符串匹配，可以帮助你在处理文本数据时，找到最相似的字符串。它使用Levenshtein距离算法来计算两个字符串之间的相似度。fuzz和processfuzz。
复制链接

扫一扫