目录
一、前言
二、简单介绍fuzzywuzzy
三、mysql表数据对照,取相似度最高值
四、将代码打包成可执行文件
一、前言
对于做数据治理、数据集成平台都会涉及到数据标准化、mdm主数据管理,说白了就是字典对照,那么对于一些又多又杂的数据字典(如医疗中的诊断、检验项目)人工对照实在是耗时耗力耗眼睛。
针对上面的问题,本文介绍了以下几点内容:
1.python第三方库 fuzzywuzzy
2.python打包可执行文件
二、简单介绍fuzzywuzzy
fuzzywuzzy是一个Python库,用于模糊字符串匹配,可以帮助你在处理文本数据时,找到最相似的字符串。它使用Levenshtein距离算法来计算两个字符串之间的相似度。
fuzzywuzzy库提供了两个主要的函数:fuzz 和 process
fuzz 函数用于计算两个字符串之间的相似度,它返回一个介于0和100之间的整数,表示两个字符串的相似度,示例如下:
from fuzzywuzzy import fuzz
string1 = "apple"
string2 = "appel"
similarity = fuzz.ratio(string1, string2)
print(similarity) # 输出: 91
process函数用于在一个字符串列表中查找与给定字符串最相似的字符,示例如下:
from fuzzywuzzy import process
string = "appl